Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Popúlismi formanns VR Sólveig Anna Jónsdóttir Skoðun Lægri húsnæðisvextir með evru (staðfest) Dagur B. Eggertsson Skoðun Dónaskapur Reykjavíkurborgar Lárus Blöndal Sigurðsson Skoðun Ég ætlaði mér aldrei að verða leikskólakennari Ásta Möller Sívertsen Skoðun Íslensk orka er svarið við olíukrísunni Jóhann Páll Jóhannsson Skoðun Ég kann að skipta um bleyju og ætti því að fá starfsleyfi sem leikskólakennari Rakel Linda Kristjánsdóttir Skoðun Ísland á krossgötum: Er kominn tími til að velja öryggi fram yfir óvissu? Sigurður Sigurðsson Skoðun #ÉGLOFA að láta ekki allt brenna til kaldra kola Alfa Jóhannsdóttir Skoðun Göngum til góðs fyrir íslenska náttúru Jóna Bjarnadóttir Skoðun Öryggi í skipulagi – nauðsynleg uppfærsla Böðvar Tómasson Skoðun Skoðun Skoðun Hvar er forgangsröðun ríkisstjórnarinnar? Dagmar Valsdóttir skrifar Skoðun Lægri húsnæðisvextir með evru (staðfest) Dagur B. Eggertsson skrifar Skoðun Foreldrahús Kristín Davíðsdóttir skrifar Skoðun Börn án verndar: ofbeldi milli systkina sem fellur á milli kerfa Þórdís Bjarnleifsdóttir skrifar Skoðun Íslensk ofbeldismenning og réttarríkið Hjörvar Sigurðsson skrifar Skoðun Lykill að jöfnum tækifærum Isabel Alejandra Diaz skrifar Skoðun Jöfnuður, ábyrgð og uppbygging Stefán Þór Eysteinsson skrifar Skoðun „Selfies“ eru ekki hagsmunagæsla Jóhann Ingi Óskarsson skrifar Skoðun Dónaskapur Reykjavíkurborgar Lárus Blöndal Sigurðsson skrifar Skoðun Sterkari saman Sindri S. Kristjánsson skrifar Skoðun Popúlismi formanns VR Sólveig Anna Jónsdóttir skrifar Skoðun Snúum Reykjavík við Björg Magnúsdóttir skrifar Skoðun #ÉGLOFA að láta ekki allt brenna til kaldra kola Alfa Jóhannsdóttir skrifar Skoðun Ungt fólk í forgrunni, framtíð Hafnarfjarðar byggist á tækifærum Alexander M Árnason skrifar Skoðun Íslensk orka er svarið við olíukrísunni Jóhann Páll Jóhannsson skrifar Skoðun Göngum til góðs fyrir íslenska náttúru Jóna Bjarnadóttir skrifar Skoðun NATO án Bandaríkjanna Arnór Sigurjónsson skrifar Skoðun Styrkjum heilsubæinn Hveragerði Maria Araceli,Berglind Ósk Guttormsdóttir skrifar Skoðun Andrésarleikarnir 50 ára – hálf öld af gleði, samheldni og skíðaarfleifð Ásthildur Sturludóttir skrifar Skoðun Má vera gamalt ef það hentar mér Hjörtur J. Guðmundsson skrifar Skoðun Ísland á krossgötum: Er kominn tími til að velja öryggi fram yfir óvissu? Sigurður Sigurðsson skrifar Skoðun Ég ætlaði mér aldrei að verða leikskólakennari Ásta Möller Sívertsen skrifar Skoðun Öryggi í skipulagi – nauðsynleg uppfærsla Böðvar Tómasson skrifar Skoðun Við þurfum að geta tekið samtalið því orð eru til alls fyrst og athafnir næsta skrefið Ásta Þórdís Skjalddal Guðjónsdóttir. skrifar Skoðun Látum fiskhjallana standa Hrafn Ægir Bergsson skrifar Skoðun Frá orðum til aðgerða – Málefni fatlaðs fólks í Hafnarfirði Linda Hrönn Bakkmann Þórisdóttir skrifar Skoðun Hættum að tala um sameiningu! Liv Aase Skarstad skrifar Skoðun Borgarlínublekkingar Sjálfstæðisflokksins í Kópavogi Einar Jóhannes Guðnason skrifar Skoðun Íslenska sem annað mál í Ísafjarðarbæ – spurningar til allra frambjóðanda til sveitastjórnarkosninga vorið 2026 Ólafur Guðsteinn Kristjánsson skrifar Skoðun Aukum nærþjónustu í Urriðaholti Vilmar Pétursson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Ég kann að skipta um bleyju og ætti því að fá starfsleyfi sem leikskólakennari Rakel Linda Kristjánsdóttir Skoðun
Ísland á krossgötum: Er kominn tími til að velja öryggi fram yfir óvissu? Sigurður Sigurðsson Skoðun
Skoðun Börn án verndar: ofbeldi milli systkina sem fellur á milli kerfa Þórdís Bjarnleifsdóttir skrifar
Skoðun Ungt fólk í forgrunni, framtíð Hafnarfjarðar byggist á tækifærum Alexander M Árnason skrifar
Skoðun Andrésarleikarnir 50 ára – hálf öld af gleði, samheldni og skíðaarfleifð Ásthildur Sturludóttir skrifar
Skoðun Ísland á krossgötum: Er kominn tími til að velja öryggi fram yfir óvissu? Sigurður Sigurðsson skrifar
Skoðun Við þurfum að geta tekið samtalið því orð eru til alls fyrst og athafnir næsta skrefið Ásta Þórdís Skjalddal Guðjónsdóttir. skrifar
Skoðun Frá orðum til aðgerða – Málefni fatlaðs fólks í Hafnarfirði Linda Hrönn Bakkmann Þórisdóttir skrifar
Skoðun Íslenska sem annað mál í Ísafjarðarbæ – spurningar til allra frambjóðanda til sveitastjórnarkosninga vorið 2026 Ólafur Guðsteinn Kristjánsson skrifar
Ég kann að skipta um bleyju og ætti því að fá starfsleyfi sem leikskólakennari Rakel Linda Kristjánsdóttir Skoðun
Ísland á krossgötum: Er kominn tími til að velja öryggi fram yfir óvissu? Sigurður Sigurðsson Skoðun