Mormor Karl är 27 år: automatisk pseudonymisering av forskningsdata

Projekt: Forskningsprojekt

Projektinformation

Beskrivning (abstrakt)

Tillgång till textuell forskningsdata är kritisk för framsteg inom flera forskningsdomäner men personligt
innehåll hindrar ofta vidareanvändning. Det finns risker både i att personer kan identifieras via t.ex. namn eller
yrke, och att annan känslig information om dem kan läka ut t.ex. politiska åsikter. GDPR rekommenderar
pseudonymisering för att maskera all personlig och känslig information. I nuläget saknar vi dock
djupare kunskap om pseudonymisering och dess påverkan på forskningsdata, och behöver studera dessa
utifrån flera vinklar. Vår forskningsmiljö samlar kompetens från tre större områden för att studera
pseudonymisering systematiskt, nämligen
-språkteknologi
-datavetenskap & dataintegritet
-lingvistik & språkinlärning
Avsikten är att genom forskningsmiljösatsningen stödja Sveriges arbete med öppen tillgång till forskningsdata.
Vi satsar på följande inriktningar:
1. utveckling av automatiska metoder för att upptäcka, markera och ersätta personliga
identifikatorer med passande alternativ i fritt skrivna texter (t.ex. uppsatser) med ett huvudfokus på
lingvistiska utmaningar, såsom ortografiska fel, flertydiga ord, semantisk korrelation med kontexten, osv
2. analys av typer och antal av identifikatorer kontra acceptabel nivå på personskydd, med
efterföljande experiment för att identifiera personen bakom pseudonymiserad text. Det sista för att få
bevis att pseudonymisering framgångsrikt kan skydda personer bakom texter
3. analys av pseudonymiseringens påverkan på forskningsdata, inklusive läsbarhet, datans
forskningsvärde för teoretiska studier (t.ex. kring språkinlärning) och för praktiska tillämpningar (t.ex.
språkbedömning)
Vi kommer att använda tillgängliga uppsatser som icke-modersmålstalare skrivit på svenska, och som vi
tidigare bearbetat manuellt. Våra metoder och algoritmer från (1) kommer i nästa steg att testas på data från
sociala medier för att säkerställa att de fungerar acceptabelt på andra domäner. Allt kommer att tillgängliggöras
öppet för vidareanvändning.
StatusPågående
Gällande start-/slutdatum01/01/202331/12/2028

Vetenskapsgrenar

  • 6121 Språkvetenskaper
  • språkteknologi
  • språkutveckling
  • språkbedömning
  • svenska som andraspråk
  • pseudonymisering
  • 113 Data- och informationsvetenskap