Talko – korpus över den talade svenskan i Finland

Talko är en talspråkskorpus som upprätthålls av Svenska litteratursällskapet. Korpusen innehåller inspelningar och tillhörande sökbara utskrifter. Utskrifterna har försetts med ordklasstaggar och en del morfologisk information vilket utökar sökmöjligheterna ytterligare. Talko innehåller inspelningar gjorda inom projektet Spara det finlandssvenska talet och material ur publikationen Från Pyttis till Nedervetil. Eftersom Talko är arkivets verktyg för att tillgängliggöra arkivmaterial för forskning och undervisning kommer korpusen att kompletteras med nya materialhelheter efterhand.

Ordet talko är finlandssvenska och avser arbete som man utför frivilligt tillsammans med andra.

 

Logga in i Talko

I samband med uppdateringen av korpusen till version 2.1 har inloggningssystemet förnyats. Ifall du har en e-postadress från ett universitet kan du logga in i Talko direkt via identitetsfederationerna Feide eller eduGAIN. Det är också möjligt att ansöka om ett CLARIN-användarkonto via länken för CLARIN-inloggning. Observera att gamla Talko-användarkonton inte går att använda för inloggning i Talko 2.1.

Sökningar i Talko 2.1 görs via den nyaste versionen av korpusgränssnittet Glossa. Tips om hur man gör sökningar i Glossa finns i användarhandledningen.

I Talko ingår sociolingvistiska intervjuer med svenskspråkiga från olika delar av Finland. För en närmare redovisning över bl.a. antal intervjuer, antal orter och antal token se materialsammanställningen: PDF icontalko_materialsammanstallning_for_webben_2018-04-05.pdf

Den största delen av materialet består av inspelningar som gjordes inom projektet Spara det finlandssvenska talet, 2005–2008 (Spara talet). Spara talet-projektet var ett insamlingsprojekt med fokus på vardagligt finlandssvenskt tal. Cirka 1000 talare, både män och kvinnor, från två åldersgrupper (20–30 år och 55–75 år) runtom  i hela Svenskfinland spelades in enskilt eller parvis. Även inspelningsassistenterna hade anknytning till orterna. Av de 40–60 minuter långa intervjuerna har 20 minuter långa avsnitt ur en del av inspelningarna valts ut, transkriberats och annoterats för korpusen.

I Talko ingår också 29 kortare inspelningar på 3–5 minuter ur publikationen Från Pyttis till Nedervetil (bok med tillhörande cd) som representerar 10 dialektområden i Svenskfinland. De här inspelningarna är gjorda 1959–1987 och de flesta informanter är födda mellan åren 1880–1905.

Versioner:

Talko 2.1: Från 3.4.2018 -  Talko 2.1 innehåller 281 inspelningar, varav 252 från Spara talet och 29 Från Pyttis till Nedervetil. Ny version av användargränssnittet Glossa.

Talko 2.0: 9.3.2017–3.4.2018. Talko 2.0 innehöll 271 inspelningar, varav 243 från Spara talet och 28 Från Pyttis till Nedervetil.

Talko 1.0: Juni 2015–8.3.2017. Talko 1.0 innehöll 186 inspelningar, varav 158 från Spara talet och 28 Från Pyttis till Nedervetil.

Talko 0.1: Augusti 2014–juni 2015. Talko 0.1 innehöll 100 inspelningar från Spara talet.

 

I korpusen ingår två typer av utskrifter: en ljudenlig utskrift och en ortografisk utskrift. Utskrifterna följer det som sägs på inspelningarna ord för ord. Var uppmärksam på att utskrifterna inte är helt tillförlitliga. Det är viktigt att korpusanvändaren själv lyssnar på ljudfilerna och göra sin egen bedömning av materialet.

Ljudenlig transkription

I den ljudenliga utskriften används en grov ljudenlig transkription med det svenska alfabetets tecken. Långa vokaler markeras med kolon och långa konsonanter dubbeltecknas. Sje-ljudet anges med sj och tje-ljud med hörbart t-förslag anges med tj. Ng-ljudet markeras med ng eller om g hörs med ngg. Därtill markeras supradentalt uttal av rs med ssj. Övriga supradentaler markeras inte utan skrivs ut som konsonantkombinationer (rt, rn). Pauser anges med punkt inom parentes (.) och antalet punkter anger pausens längd: (.), (..) eller (...). 

Ortografisk transkription

Den ortografiska utskriften följer standardsvensk stavning enligt Svenska Akademiens Ordlista (SAOL). För ord som inte ingår i SAOL används huvudsakligen Ordbok över Finlands svenska folkmål (FO) och Finlandssvensk ordbok (FSOB) som utgångspunkt för den ortografiska formen.

Förutom ortografin normaliseras även verbböjningen, som förenhetligas när det gäller böjningsformer, t.ex. lest, le:st, le:ste, las i preteritum blir alla läste i den ortografiska utskriften. I sådana fall där verb av första konjugationen med böjningsformer (infinitiv, presens, preteritum och supinum) som låter lika, t.ex. uttalet ta:la för verbet tala i alla böjningsformer, avgör i sin tur kontexten vilken tempusform som väljs i den ortografiska formen.

I vissa fall har flertal olika uppslagsformer som ingår i FO sammanförts till en enda i den ortografiska transkriptionen, t.ex. adverbet här, som används för bland annat uttalen hä:r, he:r, jä:r, sjenn, hije:, ije:nan. På motsvarande sätt har pronomenet he sammanförts med det.

X- och g-tagg

Ord och former som inte finns i SAOL markeras med taggen x. Det gäller t.ex. dialektala ord, utländska ord och slangformer av namn.

En del av de x-taggade orden har försetts med direktlänkar till Ordbok över Finlands svenska folkmål (FO) och Finlandssvensk ordbok (FSOB) så att användaren vid behov kan få mer information om ordet. Länkningen har gjorts för de mest frekventa orden men är inte komplett.

Grammatiska former som inte förekommer i standardsvenska markeras med taggen g. I Talko 2.1 är det enbart de sk. substantiverade passiva infinitiven på -as(e/i), sji:dase ’skidandet’, programme:ras ’programmerande’, och te:ve:skådas ’tevetittande’ som markerats med g-tagg.  

 

Materialet i Talko har försetts med grammatisk information (ordklass och morfologisk analys) i form av de taggar som används i Stockholm-Umeå-korpusen (SUC). Dessutom har varje ord försetts med lemma (dvs. grundform). Annoteringen har gjorts automatiskt för de allra flesta av inspelningarna med hjälp av en statistisk taggare, vilket betyder att den innehåller fel.

Vi arbetar kontinuerligt med att förbättra taggningsresultatet, vilket sker genom att delar av materialet annoteras manuellt och sedan används som träningsmaterial för den statistiska taggaren. I Talko 2.1 ingår 15 Spara talet-filer och 5 Från Pyttis till Nedervetil-filer som annoterats manuellt.

Korrektheten är i medeltal 93,93 procent men kan variera mellan olika dialektområden. De fel som uppstår vid den automatiska taggningen är inte slumpmässiga utan vissa ordklasser blandas oftare ihop än andra. Vanliga fel är t.ex. att adjektiv taggas som adverb och tvärtom, och att egennamn blir taggade som substantiv.

Du kan läsa mer om hur annoteringen har gått till i artiklarna Ordklasstaggning av finlandssvenskt talspråk (Leinonen 2015) och Talko – korpus över den talade svenskan i Finland: Korpusbygge i teori och praktik (Södergård och Leinonen 2017).

Hänvisa till Talko i vetenskapliga artiklar genom att ange vilken version av Talko (se Material-avsnittet) du har använt för dina sökningar samt genom att referera till Södergård och Leinonen (2017).

Exempel:

Studien bygger på material i talspråkskorpusen Talko (version 2.1, Södergård och Leinonen 2017).

Referens:
Södergård, Lisa och Therese Leinonen (2017). Talko - korpus över den talade svenskan i Finland: Korpusbygge i teori och praktik. I: Ideologi, identitet, intervention: Nordisk dialektologi 10 (s. 331–340), red av J.-O. Östman, C. Sandström, P. Gustavsson och L. Södergård. Helsingfors: Finska, finskugriska och nordiska institutionen vid Helsingfors universitet.

 

Om du har frågor och synpunkter eller om du helt enkelt stöter på problem när du använder Talko får du gärna kontakta SLS arkiv, arkivet@sls.fi.

Om du hittar fel i transkriptionerna tar vi också gärna emot rättelser. (Fel i de grammatiska annoteringarna korrigeras däremot inte för hand eftersom de bygger på en statistisk analys av materialet som kontinuerligt utvecklas.)

SLS arkiv tackar alla som har varit med och gjort Talko möjligt:

Personal och projektanställda:

Lisa Södergård
Therese Leinonen
Janina Öhman
Ann-Sofie Grönroos
Sara Rönnqvist

Transkriberare:

Helena Palmén
Eva Sundberg
Annika Bodman
Johanna Wester
Johanna Österbro
Anna Saarukka
Pirkko Björkqvist
Tove Lindqvist
Ina Krokfors
Carola Rewell
Susanne Lagus
Vera Nygård
Alfons Röblom
Harriet Erksson
Emma Tuominen
Matilda Erikson
Alexandra Hibolin
Charlotte Stormbo
Isabella Skatz
Sissel Ray
Katja Rantala
Elin Vasquez

Ett ovärderligt jobb gjorde även alla inspelningsassistenter som gjorde intervjuer för Spara det finlandssvenska talet.

Tekstlaboratoriet

Korpusen har möjliggjorts genom ett samarbete med Tekstlaboratoriet (Tekstlab), som är en del av Institutt for lingvistiske og nordiske studier (ILN) vid universitetet i Oslo.