Talko – korpus över den talade svenskan i Finland

Talko är en talspråkskorpus som upprätthålls av SLS. Korpusen innehåller inspelningar och tillhörande sökbara utskrifter. Utskrifterna har försetts med ordklasstaggar och en del morfologisk information. Talko innehåller inspelningar gjorda inom projektet Spara det finlandssvenska talet och material ur publikationen Från Pyttis till Nedervetil. Korpusen kompletteras fortlöpande med både äldre och nyare inspelningar.

Ordet talko är finlandssvenska och avser arbete som man utför frivilligt tillsammans med andra.

 

Logga in i Talko

Är du ny användare? Registrera dig och skapa eget användarkonto.

Via länken ovan kommer du till ett formulär där du kan ansöka om användartillstånd. Fyll i blanketten och följ instruktionerna så kommer du att få ett personligt användarkonto så att du kan logga in i korpusen.

Talspråkskorpusen Talko är avsedd för lingvistisk forskning.

Sökningar i Talko kan göras via korpusgränssnittet Glossa, som lämpar sig väl för avancerade söksträngar. Via gränssnittet kan du även redigera och lagra dina sökresultat samt göra upp statistik över dem. Det finns en kort användarguide på svenska (uppdaterad april 2016) men för utförligare instruktioner (på engelska) kan du läsa användarhandledningen för Nordic Dialect Corpus. Sökkriterierna i Nordic Dialect Corpus skiljer sig likväl från dem i Talko, eftersom olika taggsett har använts för att annotera materialet. Visningsalternativen för sökresultaten är dock de samma.

Talspråkskorpusen Talko består av sociolingvistiskt intervjumaterial från alla svensktalande områden i Finland.

Den största delen av materialet består av inspelningar som gjordes inom projektet Spara det finlandssvenska talet, 2005–2008 (Spara talet). Spara talet-projektet var ett insamlingsprojekt med fokus på vardagligt finlandssvenskt tal. Cirka 1000 talare, både män och kvinnor, från två åldersgrupper (20–30 år och 55–75 år) runtom  i hela Svenskfinland spelades in enskilt eller parvis. Även inspelningsassistenterna hade anknytning till orterna. Av de 40–60 minuter långa intervjuerna har 20 minuter långa avsnitt valts ut, transkriberats och annoterats för korpusen.

I Talko ingår också 28 kortare inspelningar på 3–5 minuter hämtade ur publikationen (bok med tillhörande cd) Från Pyttis till Nedervetil som representerar 10 dialektområden i Svenskfinland. De här inspelningarna är gjorda 1959–1987 och de flesta informanter är födda mellan åren 1880–1905.

Informantkoderna består av ort och en kod för ålder (äldre eller yngre: o/y), kön (man eller kvinna: m/w) och ur vilken samling materialet kommer (Spara talet med suffixet sp och Från Pyttis till Nedervetil med pn), t.ex. esbo_ow01_sp och esbo_ow01_pn. För att åtskilja personer från samma ort och samma informantkategori tilldelas alla dessutom ett nummer.

Versioner:

Talko 2.0: Fr.om. 9.3.2017–. Talko 2.0 innehåller 271 inspelningar, varav 243 från Spara talet och 28 Från Pyttis till Nedervetil.

Talko 1.0: Juni 2015–8.3.2017. Talko 1.0 innehöll 186 inspelningar, varav 158 från Spara talet och 28 Från Pyttis till Nedervetil.

Talko 0.1: Augusti 2014–juni 2015. Talko 0.1 innehöll 100 inspelningar från Spara talet.

För en närmare materialredovisning över bland annat antal token och mängden timmar i de olika versionerna se materialsammanställningen här.

 

I korpusen ingår två typer av utskrifter: en ljudenlig utskrift och en ortografisk (standardenlig) utskrift. De följer det som sägs på inspelningarna ord för ord.

 

Ljudenlig transkription

I den ljudenliga utskriften används en grov ljudenlig transkription med det svenska alfabetets tecken. Långa vokaler markeras med kolon och långa konsonanter dubbeltecknas. Sje-ljudet anges med sj och tje-ljud med hörbart t-förslag anges med tj. Ng-ljudet markeras med ng eller om g hörs med ngg. Därtill markeras supradentalt uttal av rs med ssj. Övriga supradentaler markeras inte utan skrivs ut som konsonantkombinationer (rt, rn). Pauslängd betecknas också med  parentes där gärdsgårdstecken (#) markerar pausens längd: (#), (##) eller (###).

 

Ortografisk transkription

Den ortografiska utskriften följer standardsvensk stavning enligt Svenska Akademiens Ordlista (SAOL). För ord som inte ingår i SAOL används huvudsakligen Ordbok över Finlands svenska folkmål (FO) och Finlandssvensk ordbok (FSOB) som utgångspunkt för den ortografiska formen.

Förutom ortografin normaliseras även verbböjningen, som förenhetligas när det gäller böjningsformer, t.ex. lest, le:st, le:ste, las i preteritum blir alla läste i den ortografiska utskriften. I sådana fall där verb av första konjugationen med böjningsformer (infinitiv, presens, preteritum och supinum) som låter lika, t.ex. uttalet ta:la för verbet tala i alla böjningsformer, avgör i sin tur kontexten vilken tempusform som väljs i den ortografiska formen.

I vissa fall har flertal olika uppslagsformer som ingår i FO sammanförts till en enda i den ortografiska transkriptionen, t.ex. adverbet här, som används för bland annat uttalen hä:r, he:r, jä:r, sjenn, hije:, ije:nan. På motsvarande sätt har bland annat pronomenet he sammanförts med det.

 

Materialet i Talko har försetts med grammatisk information (ordklass och morfologisk analys) i form av de taggar som används i Stockholm-Umeå-korpusen (SUC). Dessutom har varje ord försetts med lemma (dvs. grundform). Annoteringen har gjorts automatiskt för de allra flesta av inspelningarna med hjälp av en statistisk taggare, vilket betyder att den innehåller fel. Korrektheten ligger i medeltal kring 94 procent men kan variera mellan olika dialektområden. De fel som uppstår vid den automatiska taggningen är inte slumpmässiga utan vissa ordklasser blandas oftare ihop än andra. Vanliga fel är t.ex. att adjektiv taggas som adverb och tvärtom, och att egennamn blir taggade som substantiv. Vi arbetar kontinuerligt med att förbättra taggningsresultatet, vilket sker genom att delar av materialet annoteras manuellt och sedan används som träningsmaterial för den statistiska taggaren. Du kan läsa mer om hur annoteringen har gått till i artiklarna Ordklasstaggning av finlandssvenskt talspråk (Leinonen 2015) och Talko – korpus över den talade svenskan i Finland: Korpusbygge i teori och praktik (Södergård och Leinonen 2017).

Hänvisa till Talko i vetenskapliga artiklar genom att ange vilken version av Talko (se Material-avsnittet) du har använt för dina sökningar samt genom att referera till Södergård och Leinonen (2017).

Exempel:

Studien bygger på material i talspråkskorpusen Talko (version 2.0, Södergård och Leinonen 2017).

Referens:
Södergård, Lisa och Therese Leinonen (2017). Talko - korpus över den talade svenskan i Finland: Korpusbygge i teori och praktik. I: Ideologi, identitet, intervention: Nordisk dialektologi 10 (s. 331–340), red av J.-O. Östman, C. Sandström, P. Gustavsson och L. Södergård. Helsingfors: Finska, finskugriska och nordiska institutionen vid Helsingfors universitet.

 

Om du har frågor och synpunkter eller om du helt enkelt stöter på problem när du använder Talko får du gärna kontakta SLS arkiv, arkivet@sls.fi.

Om du hittar fel i transkriptionerna tar vi också gärna emot rättelser. (Fel i de grammatiska annoteringarna korrigeras däremot inte för hand eftersom de bygger på en statistisk analys av materialet som kontinuerligt utvecklas.)

SLS arkiv tackar alla som har varit med och gjort Talko möjligt:

Personal och projektanställda:

Lisa Södergård
Therese Leinonen
Janina Öhman
Ann-Sofie Grönroos
Sara Rönnqvist

Transkriberare och översättare:

Helena Palmén
Eva Sundberg
Annika Bodman
Johanna Wester
Johanna Österbro
Anna Saarukka
Pirkko Björkqvist
Tove Lindqvist
Ina Krokfors
Carola Rewell
Susanne Lagus
Vera Nygård
Alfons Röblom
Harriet Erksson
Emma Tuominen
Matilda Erikson
Alexandra Hibolin
Charlotte Stormbo
Isabella Skatz
Sissel Ray
Katja Rantala
Elin Vasquez

Tekstlaboratoriet

Korpusen har möjliggjorts genom ett samarbete med Tekstlaboratoriet (Tekstlab), som är en del av Institutt for lingvistiske og nordiske studier (ILN) vid Oslo universitet. Tekstlab erbjuder tekniska lösningar för text- och språkteknologi till forskare, stipendiater och magisterstudenter i form av databaser, ordlistor och övriga sökverktyg. Eftersom Tekstlab har erfarenhet av att upprätthålla korpusar i bland annat norskt talspråk och nordiska dialekter så var det ett naturligt val att samarbeta med Tekstlab kring SLS talspråksmaterial.