Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið „Ég vissi ekki“ Unnar Þór Sæmundsson Skoðun 4.927 stúdentar borga kaffið og kleinurnar Andrea Edda Guðlaugsdóttir,Eiríkur Kúld Viktorsson Skoðun Við yrðum á matseðlinum innan ESB Hjörtur J. Guðundsson Skoðun Að vera heil manneskja í brotakenndum heimi Inga Gunnlaugsdóttir Skoðun Skilar Kópavogur auðu í húsnæðismálum? Finnbjörn A. Hermannsson Skoðun Allt að 57% lægra verð í Ísland Duty Free Heiðar Róbert Birnuson Skoðun Noregur er bara betri áfangastaður! Bjarki Gunnarsson Skoðun Að vinna undir nýfrjálshyggjumanni Ægir Máni Bjarnason Skoðun Hvers vegna gera þau það ekki fyrst sjálf? Tómas Ragnarz Skoðun Börn og vopn Helga Þórólfsdóttir Skoðun Skoðun Skoðun Loks slitnaði rófan! Hvað gengur Viðskiptaráði til? Kolbrún Halldórsdóttir skrifar Skoðun Spegillinn sem ég límdi sjálfur skrifar Skoðun Skilar Kópavogur auðu í húsnæðismálum? Finnbjörn A. Hermannsson skrifar Skoðun Að vera heil manneskja í brotakenndum heimi Inga Gunnlaugsdóttir skrifar Skoðun Nýir tímar í landeldi á laxi – stefnumótandi tækifæri fyrir Ísland Steinþór Pálsson skrifar Skoðun Félagslegt réttlæti og geðheilsa Svava Arnardóttir skrifar Skoðun Noregur er bara betri áfangastaður! Bjarki Gunnarsson skrifar Skoðun Loforð eða árangur? Ýmir Örn Hafsteinsson skrifar Skoðun Heimskautalandbúnaður ESB Eggert Sigurbergsson skrifar Skoðun Byrjum á rótinni – ekki verðmiðanum Elísabet Reynisdóttir skrifar Skoðun Styðjum við STEM greinar í grunnskóla Guðríður Eldey Arnardóttir skrifar Skoðun Þögn er ekki samráð: W.O.M.E.N. svarar fyrir brottfarastöðina Nichole Leigh Mosty,Marion Poilvez skrifar Skoðun Börn og vopn Helga Þórólfsdóttir skrifar Skoðun „Ég vissi ekki“ Unnar Þór Sæmundsson skrifar Skoðun Að vinna undir nýfrjálshyggjumanni Ægir Máni Bjarnason skrifar Skoðun 4.927 stúdentar borga kaffið og kleinurnar Andrea Edda Guðlaugsdóttir,Eiríkur Kúld Viktorsson skrifar Skoðun Stöndum með Grænlendingum Heiða Björg Hilmisdóttir skrifar Skoðun Við yrðum á matseðlinum innan ESB Hjörtur J. Guðundsson skrifar Skoðun Friðarráð Eleanor Roosevelt lýsir okkur enn Gunnar Hersveinn skrifar Skoðun Rangfærslur Viðskiptaráðs Sonja Ýr Þorbergsdóttir skrifar Skoðun Frítt Elliði Vignisson skrifar Skoðun Vaxandi álag á fagfólk innan velferðarþjónustu Steinunn Bergmann skrifar Skoðun Kvenréttindafélag Íslands viðhefur ósmekklegt persónuníð Huginn Þór Grétarsson skrifar Skoðun Kemst ég örugglega út? Birgir Finnsson skrifar Skoðun Ofurlaun fyrir leikskólakennara Ólöf Hugrún Valdimarsdóttir skrifar Skoðun Sagði seðlabankastjóri Alþingi ósatt? Örn Karlsson skrifar Skoðun Allt að 57% lægra verð í Ísland Duty Free Heiðar Róbert Birnuson skrifar Skoðun Bakkakot er ekki frávik. Þetta er kerfi sem brást Steindór Þórarinsson skrifar Skoðun Afsökunarbeiðni, skítkast og popúlismi - Alvarleg staða á Alþingi Hjörvar Sigurðsson skrifar Skoðun Hversu oft þarf að kveikja í? Olga Cilia skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Nýir tímar í landeldi á laxi – stefnumótandi tækifæri fyrir Ísland Steinþór Pálsson skrifar
Skoðun Þögn er ekki samráð: W.O.M.E.N. svarar fyrir brottfarastöðina Nichole Leigh Mosty,Marion Poilvez skrifar
Skoðun 4.927 stúdentar borga kaffið og kleinurnar Andrea Edda Guðlaugsdóttir,Eiríkur Kúld Viktorsson skrifar
Skoðun Afsökunarbeiðni, skítkast og popúlismi - Alvarleg staða á Alþingi Hjörvar Sigurðsson skrifar