Talko – korpus över den talade svenskan i Finland

Talko är en talspråkskorpus som upprätthålls av SLS. Korpusen innehåller inspelningar och tillhörande sökbara utskrifter. Utskrifterna har försetts med ordklasstaggar och en del morfologisk information. Talko innehåller inspelningar gjorda inom projektet Spara det finlandssvenska talet och material ur publikationen Från Pyttis till Nedervetil. Korpusen kompletteras fortlöpande med både äldre och nyare inspelningar. Nästa uppdatering sker i början av år 2017.

Ordet talko är finlandssvenska och avser arbete som man utför frivilligt tillsammans med andra.

 

Talspråkskorpusen Talko är avsedd för lingvistisk forskning. Korpusen ligger vid Tekstlaboratoriet vid Oslo universitet och för få tillgång till Talko måste du registrera dig som användare vid Tekstlaboratoriet.

Via länken kommer du till ett formulär där du kan ansöka om användartillstånd. Fyll i blanketten och följ instruktionerna så kommer du att få ett personligt användarkonto så att du kan logga in i korpusen.

Referenser till korpusen kan skrivas enligt följande: Talko – korpus över den talade svenskan i Finland. Version 1.0. Svenska litteratursällskapet i Finland.

Talko använder korpusgränssnittet Glossa. Det finns en kort användarguide på svenska men för utförligare instruktioner (på engelska) kan du läsa användarhandledningen för Nordic Dialect Corpus. Valmöjligheterna i menyn Criteria är andra i Nordic Dialect Corpus än i Talko eftersom materialet taggats med olika taggare men visningsalternativen för sökresultaten är de samma.

PDF iconTalko användarguide (uppdaterad april 2016)

 

Talko 1.0 öppnades i augusti 2015 och är en uppdatering av den version av korpusen som lanserades i augusti 2014 (Talko 0.1).

I Talko ingår ett urval av inspelningarna från projektet Spara det finlandssvenska talet 2005–2008. Inspelningarna i korpusen består av ca 20 minuter långa avsnitt ur intervjuerna, som i sin helhet är 40–60 minuter långa. Inspelningarna i är utvalda för att få spridning på talarnas ålder, kön och hemort. I de flesta intervjuer deltar en person men det finns också intervjuer med två personer samtidigt. Målet är att ca 10 % av Spara talet-materialet, dvs. omkring 100 h av de totalt ca 1 000 h inspelningar som gjordes inom projektet, ska ingå i korpusen. I Talko ingår nu ca hälften av det planerade Spara talet-materialet, dvs. utdrag ur 158 inspelningar av 300 planerade.

I Talko ingår också materialet ur publikationen Från Pyttis till Nedervetil. Materialet består av kortare ljudklipp, ca 3–5 minuter långa, ur intervjuer gjorda mellan åren 1959–1987. Intervjuerna publicerades som bok med tillhörande cd-skiva år 1998 och valdes ut för att representera de 10 dialektområdena i Svenskfinland. Av de som intervjuas är de flesta födda mellan åren 1880–1905.

I korpusen har materialet ur Spara talet-insamlingen märkts ut med suffixet sp (esbo_ow01_sp) och materialet ur från Pyttis till Nedervetil har fått suffixet pn (esbo_ow01_pn).

PDF iconTalko 1.0 Materialöversikt

I korpusen ingår två typer av utskrifter: en ljudenlig utskrift och en ortografisk utskrift. Gemensamt för dem båda är att de ord för ord följer det som sägs på inspelningen.

Den ljudenliga utskriften är gjord med ett slags grov ljudskrift. I utskriften används endast alfabetets vanliga bokstäver men långa vokaler markeras med kolon, t.ex. bana:n. I transkriptionsnyckeln beskrivs den ljudenliga utskriften närmare.

PDF iconTranskriptionsnyckel

Skapandet av den ortografiska utskriften har skett halvautomatiskt, med hjälp av den dialekttranslitterator som utvecklats vidTekstlaboratoriet vid Oslo universitet. Med utgångspunkt i den ljudenliga utskriften gör dialekttranslitteratorn en ortografisk utskrift, som sedan korrigeras manuellt.

Den ortografiska utskriften följer standardsvensk stavning enligt Svenska Akademiens Ordlista (SAOL). För ord som inte ingår i SAOL används huvudsakligen Ordbok över Finlands svenska folkmål och Finlandssvensk ordbok som referenser. Utförligare beskrivning finns i instruktionerna för ortografisk utskrift.

PDF iconInstruktioner för ortografisk utskrift

De ortografiska utskrifterna har försetts med taggar som består av ordklass och viss morfologisk information (se utförligare beskrivning i användarguiden för Talko). Vid taggningen har den statistiska taggaren TreeTagger (Schmid 1994, 1995) använts. Stockholm-Umeå korpus (SUC) har använts som träningsmaterial för TreeTaggern. Eftersom det material som ingår i Talko dels är utskrivet talspråk, dels är finlandssvenska, var en del bearbetningar nödvändiga. I träningsmaterialet ingår därför i tillägg till SUC3, 15 manuellt taggade talspråksfiler. Taggningskorrektheten mellan olika dialektområden varierar.

I Talko ingår följande 15 filer som är manuellt korrigerade:

abo_om04_sp*
abo_ym13_sp
bjorkoby_ow02_sp
esse_om01_sp
helsingfors_om01-helsingfors_ow03_sp
houtskar_yw01_sp
korpo_ow01_sp
kyrkslatt_ym04_sp
lovisa_ym06_sp
narpes_ym03_sp
vasa_ym06_sp
brando_ow01_pn
lappfjard_ow01_pn
munsala_om01_pn
purmo_om01_pn

Taggsettet som använts i Talko bygger på taggsettet i SUC men har kompletterats för att passa talspråksmaterial. Eftersom den ortografiska utskriften är gjord ord för ord utgående från den ljudnära utskriften innebär det att taggar som fogats till den ortografiska utskriften också gäller för den ljudnära utskriften.

*Filnamnen består av ort och en kod för ålder (äldre eller yngre: o/y) kön (man eller kvinna: m/w) och ur vilken samling materialet kommer (Spara talet eller Från Pyttis till Nedervetil sp/pn). För att åtskilja personer från samma ort och samma informantkategori tilldelas alla dessutom ett nummer.

PDF iconÖversikt över taggsettet i Talko

Om du har frågor och synpunkter eller om du helt enkelt stöter på problem när du använder Talko får du gärna kontakta SLS arkiv, Janina Öhman (janina.ohman@sls.fi).

Talko is a speech corpus of Swedish in Finland. It consists of audio files linked to annotation, i.e. transcriptions in two parallel levels and part-of-speech tagging.

Recordings and transcriptions

The corpus consists of sociolinguistic interviews recorded in all parts of Swedish-language Finland.

Most of the material in the corpus consists of recordings from the project Spara talet. It was carried out between 2005 and 2008. Speakers from two age groups (20–30 years and 55–75 years), both male and female, were recorded in both rural and urban areas. The interviews generally lasted 40–60 minutes but 20 minutes long excerpts have been selected for the corpus.

The corpus also contains 29 shorter interviews recorded between 1959 and 1987 from the publication (book and cd) Från Pyttis till Nedervetil.

The recordings have been transcribed in a broad phonetic transcription as well as a standard orthographic transcription, which is later POS tagged.

Tagging

The POS tagging is done with TreeTagger trained on the Stockholm-Umeå Corpus of written Swedish as well as on some manually corrected Talko data. This has gradually improved the result of the automatic tagging and  compensates for differences between spoken and written Swedish and between Finland-Swedish and Sweden-Swedish.

Get access

To get access to the corpus you need to register as a user at the Text Laboratory at the University of Oslo, who provides the technical solutions.

Register here

User Guide

There is no User Guide in English for Talko but the Search Interface Documentation and the User Manual provided for The Nordic Dialect Corpus by the Text Laboratory is very useful since the same interface Glossa is used.

Contact us

If you need help with registering or need more information about Talko, please don't hesitate to contact us on info@sls.fi

Search the corpus