Project Publications

Articles

2026

Lisa Södergård. 2026. Deltagare 1, K1989, Lova eller Latife – hur forskare benämner personer som förekommer i forskningsmaterialet/Participant 1, W1989, Lova or Latife - how researchers name particpants present in their research data. In Svenskan in Finland 21., pages 263 - 278.
Maria Irena Szawerna, Simon Dobnik. 2026. Birds of a Feather: Do Embedding Representations of Personal Information Flock Together?, in Proceedings of the Joint Workshop on Legal and Ethical Issues in Human Language Technologies and Computational Approaches to Language Data Pseudonymization, Anonymization, De-identification, and Data Privacy (LEGAL2026 and CALD-pseudo 2026) @ LREC 2026, pages 62-72. Palma de Mallorca, Spain. ELRA.
Ingo Siegert, Maria Irena Szawerna, Khalid Choukri, Simon Dobnik, Paweł Kamocki, Therese Lindström Tiedemann, Pierre Lison, Ricardo Muñoz Sánchez, Ildikó Pilán, Lisa Södergård, Kossay Talmoudi, Elena Volodina, Xuan-Son Vu. 2026. Proceedings of the Joint Workshop on Legal and Ethical Issues in Human Language Technologies and Computational Approaches to Language Data Pseudonymization, Anonymization, De-identification, and Data Privacy (LEGAL2026 and CALD-pseudo 2026) @ LREC 2026, Editors. LREC, Palma de Mallorca, Spain, 2026. ELRA.
Maria Irena Szawerna, Jacob Lee Suchardt 2026. Fill-in-the-Blanks: Automatic Generation and Evaluation of Language Models’ Pseudonyms for English and Swedish Texts, in Proceedings of the Fifteenth Language Resources and Evaluation Conference (LREC 2026), pages 1155-1169. Palma de Mallorca, Spain. ELRA.

2025

Maria Irena Szawerna, David Alfter, Elena Volodina. 2025. Annotating Personal Information in Swedish Texts with SPARV. In Proceedings of the First Workshop on Natural Language Processing and Language Models for Digital Humanities, pages 155-163
Elena Volodina, Simon Dobnik, Therese Lindström Tiedemann, Ricardo Muñoz Sánchez, Maria Irena Szawerna, Lisa Södergård, Xuan-Son Vu. 2025. Towards shared standards for pseudonymization of research data. In Proceedings of the Huminfra Conference (HiC 2025), Stockholm, 12-13 November 2025
Nikolai Ilinykh, Maria Irena Szawerna. 2025. “I Need More Context and an English Translation”: Analysing How LLMs Identify Personal Information in Komi, Polish, and English.. In Proceedings of the Third Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2025).
Maria Irena Szawerna, Simon Dobnik, Ricardo Muñoz Sánchez, and Elena Volodina. 2025. The Devil’s in the Details: the Detailedness of Classes Influences Personal Information Detection and Labeling. In Proceedings of the The Joint 25th Nordic Conference on Computational Linguistics and 11th Baltic Conference on Human Language Technologies (NoDaLiDa/Baltic-HLT 2025).

2024

Maria Irena Szawerna, Simon Dobnik, Ricardo Muñoz Sánchez, Elena Volodina. 2024. Swedish Learner Essays Revisited: Further Insights into Detecting Personal Information. An abstract at the Tenth Swedish Language Technology Conference (SLTC), Linköping, Sweden
Ricardo Muñoz Sánchez, Simon Dobnik, Therese Lindström Tiedemann, Maria Irena Szawerna and Elena Volodina. 2024. Name Biases in Automated Essay Assessment. An abstract at the 28th International Congress of Onomastic Sciences - University of Helsinki, Helsinki, Finland
Ricardo Muñoz Sánchez, Simon Dobnik, Maria Irena Szawerna, Therese Lindström Tiedemann and Elena Volodina. 2024. Did the Names I Used within My Essay Affect My Score? Diagnosing Name Biases in Automated Essay Scoring. In Proceedings of the the EACL workshop Computational Approaches to Language Data Pseudonymization (CALD-pseudo-2024). EACL, Malta, 2024. Association for Language Technology.
Maria Irena Szawerna, Simon Dobnik, Ricardo Muñoz Sánchez, Therese Lindström Tiedemann and Elena Volodina. 2024. Detecting Personal Identifiable Information in Swedish Learner Essays. In Proceedings of the the EACL workshop Computational Approaches to Language Data Pseudonymization (CALD-pseudo-2024). EACL, Malta, 2024. Association for Language Technology.
Volodina Elena, Simon Dobnik, Therese Lindström Tiedemann, Xuan-Son Vu, David Alfter, Maria Irena Szawerna, Ricardo Muñoz Sánchez. 2024. Proceedings of the EACL workshop on Computational Approaches to Language Data Pseudonymization (CALD-pseudo), Editors. EACL, Malta, 2024. Association for Language Technology.
Maria Irena Szawerna, Simon Dobnik, Therese Lindström Tiedemann, Ricardo Muñoz Sánchez, Xuan-Son Vu and Elena Volodina. 2024. Pseudonymization Categories across Domain Boundaries. In Proceedings of LREC-Coling 2024.

2023

Elena Volodina, Simon Dobnik, Therese Lindström Tiedemann and Xuan-Son Vu. 2023. Grandma Karl is 27 years old – Research Agenda for Pseudonymization of Research Data. Proceedings of the 2023 IEEE Ninth International Conference on Big Data Computing Service and Applications (BigDataService), Workshop on Big Data and Machine Learning with Privacy Enhancing Tech. Athens, Greece.

Presentations

2026

Lisa Södergård, Therese Lindström Tiedemann (19. May, 2026) Autentiska och syntetiska ortnamn – associationer till språk och kulturarv. /Authentic and synthethic place names - associations to language and cultural heritage. NORNA-symposium on Names and cultural heritage, Reykjavik, Iceland.
Maria Irena Szawerna, Jacob Lee Suchardt. (13. May, 2026) Fill-in-the-Blanks: Automatic Generation and Evaluation of Language Models’ Pseudonyms for English and Swedish Texts, a poster at LREC 2026. Palma de Mallorca, Spain.
Maria Irena Szawerna, Simon Dobnik. (12. May, 2026) Birds of a Feather: Do Embedding Representations of Personal Information Flock Together?, LEGAL2026 and CALD-pseudo 2026 @ LREC 2026. Palma de Mallorca, Spain.
Maria Irena Szawerna. (20. April, 2026) Sense and sensitivity: insights into detecting and replacing personal information in Swedish texts. Mid-seminar in the Higher Seminar series @ the Department of Swedish, Multilingualism, Language Technology, University of Gothenburg. Gothenburg, Sweden.
Therese Lindström Tiedemann, Lisa Södergård. (13. March, 2026) “Hen är en bra kille”. Pronomen i pseudonymisering av forskningsdata /”Hen is a good guy”. Pronouns in pseudonymisation of research data. Svenskan i Finland 22, Tampere, Finland.

2025

Maria Irena Szawerna, David Alfter, Elena Volodina. (1. October, 2025) Annotating Personal Information in Swedish Texts with SPARV. Poster presentation at the Bazaar of the CLARIN Annual Conference 2025, Vienna, Austria.
Lisa Södergård, Therese Lindström Tiedemann, Elena Volodina, Simon Dobnik, Maria Szawerna, Ricardo Muñoz Sánchez och Xuan-Son Vu. (26/5 2025) Om mormor Karl sägs vara 27 år gammal, vad säger det om skribenten? En presentation om att identifiera och ersätta identifierande element i språkvetenskapliga forskningsdata. Ingår i workshoppen Pseudonymisering inom språkvetenskap. Svenskans beskrivning 40, Stockholms universitet.
Lisa Södergård. (28/5 2025) Pseudonymisering av orter, skolor och organisationer – hur gör språkforskare i praktiken?. Svenskans beskrivning 40, Stockholms universitet.
Lisa Södergård, Therese Lindström Tiedemann. (12/5 2025) Att ansvarsfullt skydda och dölja identitet i språkforskning. Språkvetenskapsdagarna 2025, Helsingfors universitet.
Maria Irena Szawerna, Simon Dobnik, Ricardo Muñoz Sánchez, Elena Volodina. (3. March, 2025) The Devil’s in the Details: the Detailedness of Classes Influences Personal Information Detection and Labeling. NoDaLiDa/Baltic-HLT 2025, Tallinn, Estonia.
Nikolai Ilinykh, Maria Irena Szawerna. (2. March, 2025) “I Need More Context and an English Translation”: Analysing How LLMs Identify Personal Information in Komi, Polish, and English. A poster at RESOURCEFUL 2025 @ NoDaLiDa/Baltic-HLT 2025, Tallinn, Estonia.

2024

Lisa Södergård, Therese Lindström Tiedemann. (11. December, 2024) Mormor Karl och personuppgifterna i språkvetenskapen. Nordiska forskarseminariet, Helsingfors universitet. (onsite and on zoom)
Maria Irena Szawerna, Simon Dobnik, Ricardo Muñoz Sánchez, Elena Volodina. (27. November, 2024). Swedish Learner Essays Revisited: Further Insights into Detecting Personal Information. The Tenth Swedish Language Technology Conference (SLTC), 27-29 November, 2024, Linköping, Sweden .
Maria Irena Szawerna, Simon Dobnik, Therese Lindström Tiedemann, Lisa Södergård, Ricardo Muñoz Sánchez, Xuan-Son Vu, Elena Volodina. (19. November, 2024). AI for open research data with Grandma Karl. Privacy and AI: Towards a trustworthy eco-system (AI trust) workshop, WASP HS conference. Gothenburg, Sweden.
Ricardo Muñoz Sánchez, Maria Irena Szawerna (8. October, 2024). As words have power, names have power. CLEANUP seminar, Oslo, Norway.
Lisa Södergård (3 October, 2024). Behandlingen av personuppgifter i språkvetenskapliga forskningspublikationer. Föredrag på konferensen Svenskan i Finland 3–4.10.2024, Uleåborg.
Maria Irena Szawerna, Simon Dobnik, Therese Lindström Tiedemann, Lisa Södergård, Ricardo Muñoz Sánchez, Xuan-Son Vu, Elena Volodina (3. October, 2024). AI for open research data with Grandma Karl. Beyond Words Theoretical, Experimental, and Computational Approaches to Language, Contexts, and Modalities, Gothenburg, Sweden.
Elena Volodina (September, 2024). Open access to research data - is pseudonymization an answer? Talk at the Higher Seminar, University of Gothenburg [slides]
Ricardo Muñoz Sánchez, Simon Dobnik, Therese Lindström Tiedemann, Maria Irena Szawerna and Elena Volodina. (August, 2024) Name Biases in Automated Essay Assessment. An abstract at the 28th International Congress of Onomastic Sciences - University of Helsinki, Helsinki, Finland [link]
Maria Irena Szawerna (19. June, 2024). AI for open research data with Grandma Karl. Symposium on ‘Humanistic AI’ workshop, Gothenburg, Sweden.
Maria Irena Szawerna, Simon Dobnik, Therese Lindström Tiedemann, Ricardo Muñoz Sánchez, Xuan-Son Vu and Elena Volodina. (22. May, 2024) Pseudonymization Categories across Domain Boundaries. A poster at LREC-Coling 2025, Turin, Italy.
Ricardo Muñoz Sánchez, Simon Dobnik, Maria Irena Szawerna, Therese Lindström Tiedemann and Elena Volodina. (21. March, 2024) Did the Names I Used within My Essay Affect My Score? Diagnosing Name Biases in Automated Essay Scoring. CALD-pseudo workshop at EACL, St Julians, Malta.
Maria Irena Szawerna, Simon Dobnik, Ricardo Muñoz Sánchez, Therese Lindström Tiedemann and Elena Volodina. (21. March, 2024) Detecting Personal Identifiable Information in Swedish Learner Essays. CALD-pseudo workshop at EACL, St Julians, Malta.

2023

Xuan-Son Vu (29. November, 2023). Privacy preserving ML / AI: problems, regulations, research, and solutions. Open house at Mormor Karl, workshop at the University of Gothenburg, Gothenburg, Sweden.
Simon Dobnik (29. November, 2023). Language models, computational semantics and meaning representation. Open house at Mormor Karl, workshop at the University of Gothenburg, Gothenburg, Sweden.
Ricardo Muñoz Sánchez (29. November, 2023). Name Biases in Automated Essay Assessment. Open house at Mormor Karl, workshop at the University of Gothenburg, Gothenburg, Sweden.
Therese Lindström Tiedemann (29. November, 2023) When Sverige is better than Sweden, Open house at Mormor Karl, workshop at the University of Gothenburg.
Maria Irena Szawerna (29. November, 2023). Sense and Sensitivity: what do we need to turn private information into pseudonyms? Open house at Mormor Karl, workshop at the University of Gothenburg, Gothenburg, Sweden.
Elena Volodina (29. November, 2023). Mormor Karl’s Research Agenda. Open house at Mormor Karl, workshop at the University of Gothenburg, Gothenburg, Sweden.

Mormor Karl

Articles

Presentations