Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Nýi Landspítalinn: klúður sem enginn þorir lengur að ræða Sigurður Sigurðsson Skoðun Kæra heilbrigðisráðherra, Alma Möller Arnar Helgi Lárusson Skoðun Ríkisborgararéttur – sömu reglur eiga að gilda fyrir alla Katrín Haukdal Magnúsdóttir Skoðun Ef þetta er ekki þrælahald – hvað er það þá? Ágústa Árnadóttir Skoðun Maðurinn sem ég kynntist í löggunni Þuríður B. Ægisdóttir Skoðun Stúka við Kórinn mun skera niður framtíð HK í fótbolta! Ómar Stefánsson Skoðun 3,7 milljarða skattalækkun í Hafnarfirði Orri Björnsson Skoðun U-beygja framundan Eyjólfur Ármannsson Skoðun Flóttamannavegurinn er loksins fundinn Árni Rúnar Þorvaldsson Skoðun Breytum viðhorfi til veikindaréttar Bjarni Kristjánsson Skoðun Skoðun Skoðun Stúka við Kórinn mun skera niður framtíð HK í fótbolta! Ómar Stefánsson skrifar Skoðun Hlúum að hjarta skólans skrifar Skoðun Ef þetta er ekki þrælahald – hvað er það þá? Ágústa Árnadóttir skrifar Skoðun Af hverju þurfa börn að borga í strætó? Sanna Magdalena Mörtudóttir skrifar Skoðun Flóttamannavegurinn er loksins fundinn Árni Rúnar Þorvaldsson skrifar Skoðun Ríkisborgararéttur – sömu reglur eiga að gilda fyrir alla Katrín Haukdal Magnúsdóttir skrifar Skoðun Hafnarfjörður fyrir fólk á öllum æviskeiðum Helga Björg Loftsdóttir skrifar Skoðun 3,7 milljarða skattalækkun í Hafnarfirði Orri Björnsson skrifar Skoðun Nokkur orð um rekstrarkostnað Arnar Már Jóhannesson,Ásgerður Ágústsdóttir skrifar Skoðun ESB er (enn) ekki varnarbandalag Hallgrímur Oddsson skrifar Skoðun Ekkert styður fullyrðingar um lélegan árangur af Byrjendalæsi Guðmundur Engilbertsson,Gunnar Gíslason,Jenný Gunnbjörnsdóttir,Ragnheiður Lilja Bjarnadóttir,Rannveig Oddsdóttir,Rúnar Sigþórsson skrifar Skoðun Suðurlandsbraut á skilið umhverfismat Þórir Garðarsson skrifar Skoðun Loforðin ein vinna ekki á verðbólgunni Ólafur Adolfsson skrifar Skoðun Ástæða góðs árangurs í handbolta Lárus Bl. Sigurðsson skrifar Skoðun Skaðlegt stafrænt umhverfi barna Sigurður Sigurðsson skrifar Skoðun U-beygja framundan Eyjólfur Ármannsson skrifar Skoðun Ríkisstjórnin ræður ekki við verkefnið Guðrún Hafsteinsdóttir skrifar Skoðun Kæra heilbrigðisráðherra, Alma Möller Arnar Helgi Lárusson skrifar Skoðun Súkkulaðisnúðurinn segir sannleikann Björn Ólafsson skrifar Skoðun Samtalið er hafið – farsældarráðin eru lykillinn Arna Ír Gunnarsdóttir,Bára Daðadóttir,Erna Lea Bergsteinsdóttir,Hanna Borg Jónsdóttir,Hjördís Eva Þórðardóttir,Nína Hrönn Gunnarsdóttir,Sara Björk Þorsteinsdóttir,Þorleifur Kr. Níelsson skrifar Skoðun Setjum ekki skátastarf á varamannabekkinn Óskar Eiríksson skrifar Skoðun Björg fyrir Reykvíkinga Þorbjörg Helga Vigfúsdóttir,Þórey Vilhjálmsdóttir skrifar Skoðun Enn má Daði leiðrétta Benedikt S. Benediktsson skrifar Skoðun Ég sá Jesú í fréttunum Daníel Ágúst Gautason skrifar Skoðun Ógnarstjórn talmafíunnar Vigdís Gunnarsdóttir skrifar Skoðun Andstæðingar dýrahalds og hagnaðardrifið dýraverndarstarf Hallgerður Ljósynja Hauksdóttir skrifar Skoðun Leiðtogi með reynslu, kjark og mannlega nálgun Kristín María Birgisdóttir skrifar Skoðun Hundrað–múrinn rofinn! Anna Björg Jónsdóttir skrifar Skoðun Hvert stefnum við? Jasmina Vajzović skrifar Skoðun Hrunamannahreppur 5 - Kópavogur 0 Gunnar Gylfason skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Ríkisborgararéttur – sömu reglur eiga að gilda fyrir alla Katrín Haukdal Magnúsdóttir skrifar
Skoðun Ekkert styður fullyrðingar um lélegan árangur af Byrjendalæsi Guðmundur Engilbertsson,Gunnar Gíslason,Jenný Gunnbjörnsdóttir,Ragnheiður Lilja Bjarnadóttir,Rannveig Oddsdóttir,Rúnar Sigþórsson skrifar
Skoðun Samtalið er hafið – farsældarráðin eru lykillinn Arna Ír Gunnarsdóttir,Bára Daðadóttir,Erna Lea Bergsteinsdóttir,Hanna Borg Jónsdóttir,Hjördís Eva Þórðardóttir,Nína Hrönn Gunnarsdóttir,Sara Björk Þorsteinsdóttir,Þorleifur Kr. Níelsson skrifar
Skoðun Andstæðingar dýrahalds og hagnaðardrifið dýraverndarstarf Hallgerður Ljósynja Hauksdóttir skrifar