Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Þegar sorg verður valdatæki Inga Valgerður Henriksen Bergdal Skoðun Þorgerður leitar ESB-stuðnings úr ótrúlegustu áttum Júlíus Valsson Skoðun Hvalir éta frá okkur fiskinn? Valgerður Árnadóttir Skoðun Skipti engu nema við göngum í ESB Hjörtur J. Guðmundsson Skoðun Getum við lært af Bjarti í Sumarhúsum? Berglind Guðmundsdóttir Skoðun Hættu að skipta þér af! Sigurður Árni Reynisson Skoðun Svartkimi samfélagsins: Þegar tveir heimar mætast í yfirheyrsluherberginu Davíð Bergmann Skoðun Þegar líf er í húfi Jón Gunnar Jónsson Skoðun Afskipti Rússlands og ESB: tvöfalt siðferði í nafni lýðræðis Júlíus Valsson Skoðun Stígum ölduna saman Víglundur Laxdal Skoðun Skoðun Skoðun Afskipti Rússlands og ESB: tvöfalt siðferði í nafni lýðræðis Júlíus Valsson skrifar Skoðun Gervigreind nýtist best með mannlegri þekkingu og reynslu Ásgeir Þorgeirsson skrifar Skoðun Skipti engu nema við göngum í ESB Hjörtur J. Guðmundsson skrifar Skoðun Svartkimi samfélagsins: Þegar tveir heimar mætast í yfirheyrsluherberginu Davíð Bergmann skrifar Skoðun Þegar sorg verður valdatæki Inga Valgerður Henriksen Bergdal skrifar Skoðun Hvalir éta frá okkur fiskinn? Valgerður Árnadóttir skrifar Skoðun Stígum ölduna saman Víglundur Laxdal skrifar Skoðun Þegar líf er í húfi Jón Gunnar Jónsson skrifar Skoðun Getum við lært af Bjarti í Sumarhúsum? Berglind Guðmundsdóttir skrifar Skoðun Þorgerður leitar ESB-stuðnings úr ótrúlegustu áttum Júlíus Valsson skrifar Skoðun Leikrit fáránleikans á Hverfisgötu Davíð Bergmann skrifar Skoðun Forsætisráðherra talar um virðingu, en hvað með starfsfólk heilbrigðiseftirlitsins? Ásmundur E. Þorkelsson,Sigrún Guðmundsdóttir,Hörður Þorsteinsson skrifar Skoðun Hættu að skipta þér af! Sigurður Árni Reynisson skrifar Skoðun People have the power? Benedikta Guðrún Svavarsdóttir skrifar Skoðun Sumarið er tíminn…. en ekki fyrir öll börn Kolbrún Áslaugar Baldursdóttir skrifar Skoðun Kæru landar - Af hverju eigum við að segja JÁ í ágúst? Þorvaldur Ingi Jónsson skrifar Skoðun Forgangsröðun fjár úti í skurði Diljá Matthíasardóttir skrifar Skoðun Staða Grindavíkur Bryndís Haraldsdóttir skrifar Skoðun Raunhæf leið til að bæta heilbrigðiseftirlit Kolbrún Georgsdóttir skrifar Skoðun Fyrstu fasteignakaup sjaldan verið aðgengilegri Víðir Arnar Kristjánsson skrifar Skoðun Ferðaþjónustan 2026: Vöxturinn er ekki lengur sjálfgefinn Herborg Svana Hjelm skrifar Skoðun Hvar liggja mörkin? Dagmar Valsdóttir skrifar Skoðun Hversu mikið af varnarefnum er í matnum þínum? Anna Lind Fells skrifar Skoðun Tveir öfgamenn ganga inn á bar... Ólafur Hauksson skrifar Skoðun Hildarleikur Hjálmtýr Heiðdal skrifar Skoðun Frístundastarf skiptir máli - líka á sumrin ! Steinn Jóhannsson,Soffía Pálsdóttir ,Jakob Frímann Þorsteinsson skrifar Skoðun Börn send fram og til baka Lúðvík Júlíusson skrifar Skoðun Flugfélög og styrkur stéttarfélaga, traust og tryggð Matthías Arngrímsson skrifar Skoðun Framkvæmdastjórar SA styðja hækkun kostnaðar við opinbert eftirlit Hörður Þorsteinsson skrifar Skoðun Þekking sem mótar land, byggð og samfélag Þórður Már Sigfússon skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Svartkimi samfélagsins: Þegar tveir heimar mætast í yfirheyrsluherberginu Davíð Bergmann skrifar
Skoðun Forsætisráðherra talar um virðingu, en hvað með starfsfólk heilbrigðiseftirlitsins? Ásmundur E. Þorkelsson,Sigrún Guðmundsdóttir,Hörður Þorsteinsson skrifar
Skoðun Frístundastarf skiptir máli - líka á sumrin ! Steinn Jóhannsson,Soffía Pálsdóttir ,Jakob Frímann Þorsteinsson skrifar
Skoðun Framkvæmdastjórar SA styðja hækkun kostnaðar við opinbert eftirlit Hörður Þorsteinsson skrifar