Workshop om pseudonymisering inom språkvetenskap Svenskans Beskrivning 26 maj 2025

We are sorry that this information is currently in Swedish only. The workshop we are arranging on pseudonymisation in linguistics is being arranged at a conference for the Swedish language.

Vetenskaplig forskning ska göras på ett sådant sätt att vi skyddar forskningsdeltagare och deras personuppgifter (Vetenskapsrådet 2024; Forskningsetiska delegationen 2019). I koppling till införandet av EU:s allmänna dataskyddsförordning (GDPR, EU 2016/679) har det här mer och mer kommit att tolkas som att forskningsdata ska pseudonymiseras, i betydelsen att inte bara namn utan också annan information som kan peka ut individer direkt eller indirekt ersätts med en pseudonym. Det kan alltså både vara ett påhittat egennamn för en person, plats, organisation eller liknande, eller ett annat ord för något annat som kan ses som identifierande: t.ex. ålder, yrke, förstaspråk, nationalitet, bostadsort osv. Men alternativa metoder som ersättande koder eller epitet är också möjliga att använda för att dölja personuppgifter (jfr Heaton 2022, Volodina m.fl. 2023). En fördel med pseudonymer är dock att de är mindre märkbara i texten och kan antas störa förståelsen och användningen av datan mindre (jfr Szawerna m.fl. 2024a).

Just nu finns det försök att utveckla automatiskt stöd för pseudonymisering (t.ex. forskningsmiljön Mormor Karl med finansiering av Vetenskapsrådet i Sverige, se Volodina m.fl. 2023). Förutom att det skulle vara ett sätt att göra pseudonymiseringsprocessen snabbare och billigare skulle det också kunna möjliggöra delning av data med fler forskare och således vara en mer hållbar lösning eftersom vi då kanske inte behöver samla in nya data lika ofta och dessutom underlättar att andra forskare kan kontrollera våra resultat i våra data.

Utvecklingen har hittills handlat mycket om hur väl vi kan identifiera vad som är personuppgifter, vilken personlig information som behöver ersättas och hur den ska ersättas (se t.ex. Södergård 2024; Szawerna m.fl. 2024a, 2024b; Heaton 2022). Något som hittills är nästan outforskat är hur pseudonymiseringen eventuellt påverkar datan, dess användbarhet, potentiella forskningsresultat och textens läsbarhet (se dock Muñoz Sánchez m.fl. 2024a, 2024b, jfr Aldrin 2017). Inom kvalitativ forskning har dock vissa forskare lyft fram behovet av att problematisera pseudonymisering: ska alla personnamn pseudonymiseras och vem ska i så fall välja pseudonymen – forskaren eller deltagaren (se t.ex. Vainio 2013; Deakin-Smith m.fl. 2024).

Det här är synnerligen viktiga frågor, inte minst i koppling till språkvetenskap där det språkliga uttrycket i form av alla orden och hur de används är synonymt med våra forskningsdata. Det leder också till frågan om hur och när vi ska signalera att något har pseudonymiserats, vad som har pseudonymiserats samt hur det har pseudonymiserats (jfr Heaton 2022; Deakin-Smith m.fl. 2024).

Under den här workshopen vill vi samla språkvetare för att samtala och utbyta tankar om:

  1. hur vi pseudonymiserar våra språkvetenskapliga data,
  2. hur pseudonymisering av våra data påverkar möjligheten att använda datan samt 
  3. hur pseudonymisering av våra data påverkar våra potentiella forskningsresultat.

Referenser
-Aldrin, Emilia. 2017. Assessing Names? Effects of Name-based Stereotypes on Teachers’ Evaluations of Pupils’ Texts. Names 65 (1): 3–14. -Deakin-Smith, Hannah, Flaherty, Jan, Coffey, Amanda, Pilcher, Jane & Makis, Eve. 2024. The research politics of (re)naming participants: A sociology of names perspective. Qualitative Research. Online first.
-Forskningsetiska delegationen. 2019. Etiska principer för humanforskning och etikprövning inom humanvetenskaperna i Finland. Forskningsetiska delegationens publikationer 3/2019. Helsingfors: Forskningsetiska delegationen.
-Europaparlamentets och rådets förordning (EU) 2016/679 av den 27 april 2016 om skydd för fysiska personer med avseende på behandling av personuppgifter och om det fria flödet av sådana uppgifter och om upphävande av direktiv 95/46/EG (allmän dataskyddsförordning). EUT L 119, 4.5.2016, s. 1–88.
-Heaton, Janet. 2022. “*Pseudonyms Are Used Throughout”: A Footnote, Unpacked. Qualitative Inquiry 28(1). S. 123–132.
-Muñoz Sánchez, Ricardo, Dobnik, Simon, Szawerna, Maria, Lindström Tiedemann, Therese, Volodina, Elena. 2024a. Did the Names I Used within My Essay Affect My Score? Diagnosing Name Biases in Automated Essay Scoring? Proceedings from Workshop on Computational Approaches to Language Data Pseudonymization (CALD-Pseudo), Stroudsburg: Association for Computational Linguistics. S. 81–91.
-Muñoz Sánchez, Ricardo, Dobnik, Simon, Szawerna, Maria, Lindström Tiedemann, Therese, Volodina, Elena. 2024b. Name Biases in Automated Essay Assessment. Poster presentation, The 28th International Congress of Onomastic Sciences (ICOS), University of Helsinki.
-Szawerna, Maria, Dobnik, Simon, Lindström Tiedemann, Therese, Muñoz Sánchez, Ricardo, Vu-Xuan-Son & Volodina, Elena. 2024a. Pseudonymization Categories across Domain Boundaries. Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). European Language Resources Association. S. 13303–13314.
-Szawerna, Maria, Dobnik, Simon, Muñoz Sánchez, Ricardo, Lindström Tiedemann, Therese & Volodina, Elena. 2024b. Detecting Personal Identifiable Information in Swedish Learner Essays. Proceedings from Workshop on Computational Approaches to Language Data Pseudonymization (CALD-Pseudo), Stroudsburg: Association for Computational Linguistics. S. 54–63.
-Södergård, Lisa. 2024. Behandlingen av personuppgifter i språkvetenskapliga forskningspublikationer. Presentation på Svenskan i Finland, 3–4.10.2024, Uleåborg. -Vetenskapsrådet. 2024. God forskningssed. Stockholm: Vetenskapsrådet.
-Volodina, Elena, Dobnik, Simon, Lindström Tiedemann, Therese, Vu, Xuan-Son. 2023. Grandma Karl is 27 years old – research agenda for pseudonymization of research data. 2023 IEEE Ninth International Conference on Big Data Computing Service and Applications. S. 229–233.

Tid och Plats

26 maj 2025, kl. 14–17.30, Stockholms universitet, Sverige under konferensen Svenskans beskrivning 40.

Presentationer

Aldrin, Emilia (Högskolan i Halmstad) & Gustafsson, Linnea (Högskolan i Halmstad) – Ska Mikael kallas Anders, Liam eller Gunilla? Att pseudonymisera personnamn.

Belander, Theres (Stockholms universitet) & Bendegard, Saga (Uppsala universitet) – Edvins kompis Ali, hunden Polly, Malmaskolan och landet Timara: Om avväganden vid pseudonymisering i elevers berättande texter.

Lindström Tiedemann, Therese (Helsingfors universitet), Södergård, Lisa (Helsingfors universitet), Volodina, Elena (Göteborgs universitet), Dobnik, Simon (Göteborgs universitet), Szawerna, Maria (Göteborgs universitet) & Muñoz Sánchez, Ricardo (Göteborgs universitet) och Vu, Xuan-Son (Umeå universitet) – Om mormor Karl sägs vara 27 år gammal, vad säger det om skribenten? En presentation om att identifiera och ersätta identifierande element i språkvetenskapliga forskningsdata.

Palviainen, Åsa (Jyväskylä universitet) – Så öppet som möjligt och så slutet som nödvändigt – var går gränsen?

Søfteland, Åshild (Høgskolen i Østfold), Evenstad Emilsen, Linda (Høgskolen i Østfold) & Helland Gujord, Ann-Kristin (Universitetet i Bergen) – Pseudonymisering/anonymisering når språkdatamaterialet er samtaler om familie og personleg bakgrunn.

Östman, Jan-Ola (Helsingfors universitet) – Anonymisering, förtryck och interpersonligt ansvar.

Organisatörer

Forskningsmiljön Mormor Karl
Therese Lindström Tiedemann & Lisa Södergård, Helsingfors universitet
Elena Volodina (projektledare för forskningsmiljön Mormor Karl), Simon Dobnik, Maria Szawerna & Ricardo Muñoz Sánchez , Göteborgs universitet
Xuan-Son Vu, Lunds universitet