10 december 2025

AI ger nytt liv åt ett av världens största emigrantarkiv

Ett kulturarv på kassettband, och en akut bevarandefråga

3 500 timmar livsberättelser på kassettband håller på att digitaliseras. Med stöd från DigIT Hub och Linnéuniversitetet har arbetet med att för första gången göra materialet digitalt sökbart kommit en bit på väg.

När en av Kulturparken Smålands mest omfattande samlingar riskerade att gå förlorad tog organisationen hjälp av DigIT Hubs Mission-program. På Utvandrarnas hus i Växjö finns ett unikt ljudarkiv: omkring 3 500 intervjuer med svenska emigranter i USA, inspelade under flera decennier och lagrade på åldrande kassettband.

”Det är ett av världens största intervjumaterial om en nations emigranter. Men materialet är nästan omöjligt att använda när det bara finns på band”, säger Alexandra Stiernspetz, avdelningschef för kulturarv och forskning vid Kulturparken Småland.

Banden är känsliga och riskerar att förstöras, och mängden material är så stor att ingen forskare kan lyssna igenom det manuellt.

Uppdraget: bevara, tillgängliggöra och skapa ingångar till ett enormt material

Kulturparken Småland förvaltar flera museer och arkiv i Kronobergs län, däribland Smålands museum, Sveriges glasmuseum och Utvandrarnas hus.

”Vårt uppdrag är att samla och bevara kulturarv från den här regionen och förmedla det genom utställningar, programverksamhet och pedagogik”, säger Alexandra.

Behovet var tydligt: först digitalisera banden, därefter transkribera dem så att forskare kan göra ordsökningar och hitta rätt intervjuer. Men arbetsmaterialet visade sig vara exceptionellt komplext – med dialekter, blandat språk, ålderdomliga uttryck och varierande ljudkvalitet.

”Man tror kanske att det finns modeller som bara går igenom en ljudfil och transkriberar, men vi hade svårigheter med materialet,” säger Alexandra.

 

Arkivet i sin fysiska form. Foto: Kulturparken Småland

 

AI-utmaningen: dialekter, språkblandning och varierande ljudkvalitet

För att möta utmaningen genomfördes ett Mission där Linnéuniversitetet, lett av ingenjörsstudenten Alexander Sjöö, med stöd av Morgan Ericsson, professor i datavetenskap, utvecklade en AI-baserad metod för att digitalisera och transkribera materialet.

Det visade sig snart vara långt ifrån ett snabbt AI-jobb.

”De växlar mellan svenska och engelska, pratar dialekt och använder ord som ingen modell känner igen. Ljudkvaliteten varierar. Ibland avbryter intervjuaren. Det går inte bara att köra allt genom en modell och hoppas på det bästa”, säger Morgan.

Lösningen: två modeller, talarseparation och tidskoder

Morgan beskriver hur teamet fick tänka om när idéerna blev för ambitiösa för budget och dataunderlag. I stället byggde de en kedja av steg:

  1. Talarseparation – en modell delar upp ljudfilen i segment per talare (intervjuare/intervjuperson)
  2. Språkval per segment – varje kort snutt klassas som engelska eller svenska.
  3. Två olika transkriptionsmodeller:
  • OpenAI:s Whisper används för att detektera engelska.
  • Kungliga bibliotekets Whisper-modell, tränad på svenskt språk, används för svenskspråkiga segment.

”Whisper är väldigt bra på att avgöra om något är engelska eller inte. Är det inte engelska antar vi att det är svenska och skickar det vidare till Kungliga bibliotekets modell”, förklarar Morgan.

Alla transkriptioner tidskodas, och Alexander byggde in en ”error”-markering när modellen varit uppenbart osäker – så att människor senare kan korrigera just de delarna.

”Vi anser att pipelinen fungerar så bra som vi kan få den, givet förutsättningarna. Cirka 190 filer har transkriberats, ungefär 150 timmar talat material”, säger Morgan.

Körningen är också relativt effektiv:
”Vi körde ett hundratal filer på under ett dygn. Det tar kanske 10–30 minuter per fil. Även om transkriberingen är 60–70 procent rätt är det bättre än ingenting, och en relativt billig process.”

 

Ett första steg in i AI för Kulturparken Småland

För Kulturparken Småland är detta inte bara ett tekniskt experiment, utan ett viktigt steg mot digitalisering och AI.

”Det är det första vi har börjat nosa på vad gäller AI. De stora statliga institutionerna som Kungliga biblioteket och Riksarkivet ligger långt fram, men det är inte så vanligt att mindre museer och arkiv gör det. Vi har haft väldigt god hjälp av Linnéuniversitetet i att våga kasta oss ut i det här”, säger Alexandra.

Drivkraften är att göra materialet användbart för fler forskningsfält. Det digitaliserade materialet gör det möjligt att söka efter ord och begrepp – ett första steg mot att göra arkivet tillgängligt för en lång rad forskningsområden.

”Vi har forskare på gång, bland annat inom historia, migrationsforskning, etnografi och språkvetenskap. Med sökbara transkriptioner kan de hitta rätt intervjuer utan att behöva lyssna igenom hundratals timmar först”, säger Alexandra.

Ett kulturarv som engagerar

Utvandrarnas hus är en viktig nod för släktforskning och bevarande av kulturarv. På somrarna är många av besökarna amerikaner som söker sina svenska rötter.

”Tanken på att deras släktingars röster finns bevarade – och kan hittas i våra arkiv – är något som verkligen engagerar”, berättar Alexandra.

Samtidigt betonar hon museets ansvar:
”AI får inte urholka vår trovärdighet. Vi måste vara transparenta med vad som är digital bearbetning och vad som är originalmaterial.”

Nästa steg: finansiering, utveckling och maximerad nytta

Det finns mycket mer som kan göras, menar Morgan. “Det viktigaste är att materialet bevaras och att forskare får maximal nytta av det”.

Och även om mycket arbete återstår med att digitalisera återstående kassettband har projektet redan väckt vilja att fortsätta.

”Vi har fått blodad tand. Det här är ett långsiktigt arbete, men det är bara början.”, säger Alexandra.

Att digitalisera själva banden är kostsamt, och finansieringen är en utmaning.

”Vi tittar på donationer och andra finansieringsformer. Många amerikaner vill bidra när de förstår värdet av materialet. ’Vill du hjälpa till med tio band?’ är en konkret fråga som engagerar”, säger Alexandra.

Linnéuniversitetet ser också tekniska möjligheter framåt – bland annat en enkel tjänst där man kan ladda upp nya filer för transkribering.

”Vi hann inte bygga den under Missionet, men det är något som absolut kan göras framöver. Det här projektet visar tydligt att kulturarv och AI hör ihop”, säger Morgan.

Ett arv som blir tillgängligt igen

Med hjälp av AI och engagerade samarbetspartner bevaras ett unikt kulturarv – men också sökbart och användbart för forskning, släktforskning och framtida generationer.

”Det är fantastiskt att höra personernas röster. Deras livsberättelser är både vardagliga och dramatiska. Det är ett material som förtjänar att få ett nytt liv”, säger Morgan.

 

Läs mer om Utvandrarnas hus här.

Foto: Anders Bergön & Kulturparken Småland

Skip to content