Mörkuð íslensk málheild



Í Markaðri íslenskri málheild (MÍM) má finna um 25 milljónir orða af fjölbreyttum textum sem eru geymdir í stöðluðu sniði í rafrænu formi. Orð í textunum eru greind málfræðilega og hverjum texta fylgja bókfræðilegar upplýsingar um verkið sem textinn er úr. Málheildin er ætluð fyrir málrannsóknir og til notkunar í máltækniverkefnum.

NOTA MÍM1

• Leita í MÍM.
• Sækja MÍM hér. Með sérstöku notkunarleyfi


Um MÍM
Hvað er mörkuð málheild?
Með markaðri málheild (e. tagged corpus) er átt við safn fjölbreyttra texta sem eru geymdir í stöðluðu sniði í rafrænu formi. Til þess að textarnir verði sem gagnlegastir við málrannsóknir eru þeir greindir á margvíslegan hátt. Hverri orðmynd fylgir þá greiningarstrengur, mark (e. tag), sem sýnir orðflokk og oft líka málfræðileg atriði eins og fall, tölu og kyn fallorða og persónu, tölu og tíð sagna. Auk þess fylgir nefnimynd (e. lemma) með hverri orðmynd, t.d. nefnifall í eintölu fyrir fallorð og nafnháttur sagna. Hverjum texta í málheildinni fylgja jafnframt lýsigögn (e. metadata) um verkið sem textinn er úr. Fyrir útgefna texta eru lýsigögn venjulega kölluð bókfræðilegar upplýsingar.

Gerð íslenskrar málheildar
Árið 2004 var hafist handa við að búa til markaða málheild fyrir íslenskt samtímamál á Orðabók Háskólans og síðar undir merkjum Stofnunar Árna Magnússonar í íslenskum fræðum eftir að Orðabók Háskólans hafði sameinast Stofnun Árna Magnússonar á Ísland árið 2006. Stefnt var að því að í málheildinni yrðu um 25 milljónir orða úr textum af ýmsu tagi sem gæfu sem raunsannasta mynd af ritaðri íslensku á 21. öld. Textunum var safnað á tímabilinu 2006-2010. Textarnir sem safnað var eru ritaðir á tímabilinu 2000-2010. Aðeins var safnað textum sem voru aðgengilegir í tölvutæku formi.

Til þess að unnt yrði að nota málheildina í máltækniverkefnum var lögð áhersla á að afla leyfa frá rétthöfum fyrir notkun textanna. Með aðstoð lögfræðings var útbúin sérstök samþykkisyfirlýsing sem rétthafar undirrituðu.

Leitað var eftir samþykki rétthafa til þess að fá að nýta alla texta sem eru varðir af höfundarrétti. Sérstakar ráðstafanir voru gerðar til þess að afla heimilda til þess að nota texta úr útgefnum bókum. Gert var samkomulag við Hagþenki (Félag höfunda fræðirita og kennslugagna), Rithöfundasamband Íslands og Félag íslenskra bókaútgefenda. Þessir aðilar mæltu með verkefninu við félagsmenn sína. Leitað var eftir samþykki höfunda útgefinna bóka og viðkomandi útgefendur lögðu til texta verkanna. Safnað var efni úr fræðiritum, bókum um margvísleg hagnýt efni og skáldsögum.

Textar í málheildinni hafa verið flokkaðir í 23 flokka. Textar úr útgefnum bókum eru stærsti textaflokkurinn og eru tæplega 24% af textum málheildarinnar. Næststærsti textaflokkurinn er textar úr dagblöðum (Morgunblaðinu og Fréttablaðinu), um 22%. Textar úr margvíslegum prentuðum tímaritum eru um 9,5% af textum málheildarinnar. Auk höfundavarins efnis var safnað nokkru af efni frá opinberum aðilum sem ekki er varið höfundarrétti eins og ræðum alþingismanna (um 2% af málheildinni), textum af vefsetrum ráðuneyta (6,8%), textum frumvarpa og laga af vef Alþingis (1,6%) og textum dóma frá Hæstarétti og Héraðsdómi Reykjavíkur (3,5%).

Listi yfir alla texta í málheildinni.

Rétthöfum var kynnt notkunarleyfið sem notendur þurfa að samþykkja til þess að fá afrit af textum málheildarinnar.

Úr málheildinni má lesa ýmiss konar gagnlegan fróðleik. Þar má nefna upplýsingar um tíðni orðflokka, orða og beygingarmynda, orðasambönd, setningargerð, merkingu o.fl. Slík gögn nýtast m.a. við orðabókargerð, gerð leiðréttingarforrita, þýðingarforrita, búnaðar fyrir talgreiningu og talgervingu og gerð hjálparforrita fyrir blinda, heyrnarskerta, hreyfihamlaða og þá sem glíma við skriftar- og lestarörðugleika og einnig fyrir kennslu.

Samastarfsaðilar og styrkveitendur
Verkið var kostað af tungutækniverkefni menntamálaráðuneytisins fyrstu árin. Rannsóknarverkefnið Tilbrigði í setningagerð lét í té gögn um talað mál. Verkefnið var einnig kostað af styrk til Rannsóknarverkefnisins "Hagkvæm máltækni utan ensku – íslenska tilraunin" sem hlaut styrk frá Rannsóknasjóði árin 2009-2011. Frá febrúar 2011 til janúar 2013 var verkið styrkt af íslenskum hluta verkefnisins META-NORD sem er samstarfsverkefni Norðurlanda og Eystrasaltslanda og hluti af META-NET. Einstakir hlutar verkefnisins hafa verið unnir með tilstyrk styrkja úr Rannsóknasjóði Háskóla Íslands, Nýsköpunarsjóði námsmanna og verkefninu Nordisk Netordbog. Stofnun Árna Magnússonar í íslenskum fræðum er aðili að Máltæknisetri. Fræðimenn sem eiga aðild að Máltæknisetri hafa tekið þátt í gerð málheildarinnar.

Mörkun málheildarinnar
Málheildin var mörkuð með vélrænum aðferðum. Notað var sérstakt kerfi, CorpusTagger, sem var gert til þess að marka Gull-staðalinn fyrir mörkun texta (Hrafn Loftsson o.fl., 2010). Textanum var skipt í setningar og lesmálsorð með IceNLP-hugbúnaðinum. Síðan var textinn markaður með fjórum mörkurum: fnTBL, MXPOST (Ratnaparkhi, 1996), TriTagger sem er hluti af IceNLP-hugbúnaðinum og er endurgerð af Markov-markaranum (HMM) TnT (Brants, 2000) og IceTagger (Hrafn Loftsson, 2008) sem er reglumarkari og er einnig hluti af IceNLP-hugbúnaðinum. Markararnir fnTBL, MXPOST og TriTagger eru námfúsir markarar og voru þjálfaðir á textum Íslenskar orðtíðnibókar. Sömu textar voru notaðir við þróun reglumarkarans IceTagger. Að lokum var kosið á milli markanna með CombiTagger. Málheildin er því mörkuð með markaskrá Orðtíðnibókarinnar með þeirri undantekningu að sérnöfn eru ekki greind í mannanöfn, staðarnöfn og önnur sérnöfn. Nefnimyndir voru fundnar með forritinu Lemmald (Anton Ingason o.fl., 2008) sem einnig er hluti af IceNLP-hugbúnaðinum. Nákvæmni mörkunar hefur verið metin 88,1-95,1% eftir textaflokkum (Hrafn Loftsson o.fl., 2010) og nákvæmni nefnimynda er um 90%.

Markaskrá MÍM.

Tíðni orða
Nefnimyndir fyrir orð í textum málheildarinnar voru fundnar með forritinu Lemmald eins og áður sagði. Nákvæmni nefnimynda hefur verið lauslega metin um 90%. Til þess að fá áreiðanlegar tölur um tíðni nefnimynda þarf nákvæmni þeirra að vera töluvert hærri. Til þess að fá samt einhverja hugmynd er sýnd tíðni fyrir nefnimyndir sem koma fyrir oftar en 100 sinnum. Rangar nefnimyndir koma yfirleitt fyrir sjaldnar en það. Í Excel-skjalinu eru 14 blaðsíður. Á fyrstu síðunni (freq) eru nefnimyndir sem koma fyrir oftar en 100 sinnum í tíðniröð. Gefinn er upp orðflokkur (pos), þ.e. fyrsti stafur í markinu. Þessir stafir eru notaðir: a: atviksorð (adverbs); c: samtengingar (conjunctions); e: erlend orð; f: fornöfn (pronouns); g: laus greinir (article); l: lýsingarorð (adjectives); n: nafnorð (nouns); s: sagnir (verbs); t: töluorð (numerals); x: ógreind orð (unspecified). Athuga ber að forsetningar eru greindar sem atviksorð. Í annarri síðu (alphabetic) eru orðin í stafrófsröð. Í næstu síðu (freq(alphab)) eru orðin í tíðniröð en þeim sem hafa sömu tíðni er raðað í stafrófsröð. Í næstu síðu (pos(freq(alphb))) er raðað eftir orðflokki, síðan tíðni og síðast stafrófi. Síðan kemur ein síða fyrir hvern orðflokk þar sem orðum er raðað í tíðniröð og síðan stafrófsröð.

Hvernig verður málheildin notuð?
Málheildin er aðgengileg á tvenns konar hátt. Í fyrsta lagi hefur verið komið upp leitarkerfi þar sem leita má í textum málheildarinnar og nýta mörkin í leitinni. Leit skilar orðstöðulykli og tengli á upplýsingar um hvaðan hvert textadæmi er fengið. Leitarviðmótið byggist á norska leitarkerfinu Glossa sem aftur byggist á þýsku leitarkerfi fyrir markaðar málheildir, Corpus Workbench. Í sambandi við uppsetningu á leitarkerfinu voru fleiri málheildir gerðar aðgengilegar til leitar eins og Íslensk orðtíðnibók og Fornritin.

Í öðru lagi má sækja texta málheildarinnar og nota þá í máltækniverkefnum. Væntanlegir notendur þurfa að samþykkja sérstakt notkunarleyfi. Textarnir eru aðgengilegir í sérstöku xml-sniði, TEI P4, sem er skilgreint af TEI (Text Encoding Initiative). Lýsigögn fylgja öllum textum. Notendur þurfa að skrá sig og samþykkja notkunarskilmála.

Verk leidd af Markaðri íslenskri málheild
Mikilvægasta afurð málheildarinnar er Gull-staðallinn fyrir mörkun texta sem er málheild með um einni milljón orða af textum sem voru valdir úr textum Markaðrar íslenskrar málheildar. Gert er ráð fyrir að Gull-staðallinn verði notaður fyrir þjálfun námfúsra markara.

Fólkið á bak við málheildina

Verkefnisstjóri
Sigrún Helgadóttir

Verkefnisstjórn
Ásta Svavarsdóttir
Eiríkur Rögnvaldsson
Kristín Bjarnadóttir

Aðrir samstarfsmenn
Auður Þórunn Rögnvaldsdóttir (undirbúningur verkefnisins)
Eyrún Ellý Valsdóttir (efnisöflun og undirbúningur texta)
Hjördís Stefánsdóttir (efnisöflun og undirbúningur texta)
Guðmundur Örn Leifsson (leitarkerfi)
Kristján Friðbjörn Sigurðsson (leiðrétting marka í afleiddri málheild, Gullstaðli fyrir mörkun)
Jökull Huxley Yngvason (kerfi fyrir mörkun)
Kristín Margrét Jóhannsdóttir (lýsigögn og undirbúningur texta)
Steinþór Steingrímsson (flutningur í xml-skrár, leitarkerfi)

Meira um málheildina
Á þessu vefsetri munu verða birtar nánari upplýsingar um gerð málheildarinnar á næstu vikum og mánuðum.



1Þegar birtar eru niðurstöður sem eru fengnar með því að nota gögn Markaðrar íslenskrar málheildar vinsamlegast vitnið í:

Mörkuð íslensk málheild (MIM). (e.d.) Sigrún Helgadóttir ritstjóri. Stofnun Árna Magnússonar í íslenskum fræðum. Sótt [DAGS.] af malfong.is.


Hafið samband
Sigrún Helgadóttir
Verkefnisstjóri
Stofnun Árna Magnússonar í íslenskum fræðum
Skrifstofa: Neshaga 16
Vinnusími: +354-525-4434
Fax: +354-562-7242
Netfang: sigruhel@hi.is
Veffang: https://notendur.hi.is/sigruhel/


Heimildir
Anton K. Ingason, Sigrún Helgadóttir, Hrafn Loftsson og Eiríkur Rögnvaldsson. 2008. A Mixed Method Lemmatization Algorithm Using Hierachy of Linguistic Identities (HOLI). Í B. Nordström og A. Ranta (ritstj.), Advances in Natural Language Processing, 6th International Conference on NLP, GoTAL 2008, Proceedings. Gothenburg, Sweden.

Brants, Thorsten. 2000. TnT - A Statistical Part-of-Speech Tagger. Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, bls. 224–231. Seattle, Washington, USA.

Hrafn Loftsson. 2008. Tagging Icelandic text: A linguistic rule-based approach. Birtist í breyttu formi í Cambridge University Press, í Nordic Journal of Linguistics, 31(1), 47-72. © 2008 Cambridge University Press.

Hrafn Loftsson, Jökull H. Yngvason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2010. Developing a PoS-tagged corpus using existing tools. Í Proceedings of "Creation and use of basic lexical resources for less-resourced languages", workshop at the 7th International Conference on Language Resources and Evaluation, LREC 2010. Valetta, Malta.

Ratnaparkhi, A. 1996. A Maximum Entropy Model for Part-of-Speech Tagging. In Proceedings of the Conference on Empirical Mehods in Natural Lanugage Processing (EMNLP-96), bls. 133–143. Philadelphia. PA.

Ítarefni
Friðrik Magnússon. 1988. Hvað er títt? Tíðnikönnun Orðabókar Háskólans. Orð og tunga 1:1-49.

Hrafn Loftsson. 2006. Tagging Icelandic text: An experiment with integrations and combinations of taggers. Language Resources and Evaluation 40(2), 175-181.

Hrafn Loftsson. 2006. Tagging a morphologically complex language using heuristics. Í T. Salakoski, F. Ginter, S. Pyysalo og T. Pahikkala (ritstj.), Advances in Natural Language Processing, 5th International Conference on NLP, FinTAL 2006, Proceedings. Turku, Finland.

Hrafn Loftsson. 2007. Tagging Icelandic Text using a Linguistic and a Statistical Tagger. Í Proceedings of Human Language Technologies 2007: The Conference of the North American Chapter of the ACL. Rochester, NY, USA.

Hrafn Loftsson. 2009. Correcting a POS-Tagged Corpus Using Three Complementary Methods. Í Proceedings of the 12th Conference of the European Chapter of the ACL (EACL 2009). Athens, Greece.

Hrafn Loftsson og Eiríkur Rögnvaldsson. 2007. IceNLP: A Natural Language Processing Toolkit for Icelandic. Í Proceedings of InterSpeech 2007, Special session: "Speech and language technology for less-resourced languages". Antwerp, Belgium.

Hrafn Loftsson, Ida Kramarczyk, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2009.Improving the PoS tagging accuracy of Icelandic text. Í Proceedings of the 17th Nordic Conference of Computational Linguistics (NODALIDA-2009). Odense, Denmark.

Hrafn Loftsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2011.Using a morphological database to increase the accuracy in PoS tagging. Í Proceedings of Recent Advances in Natural Language Processing (RANLP 2011). Hissar, Bulgaria.

Jörgen Pind (ritstj.), Friðrik Magnússon and Stefán Briem. 1991. Íslensk orðtíðnibók. Orðabók Háskólans, Reykjavík.

Sigrún Helgadóttir. Mörkun íslensks texta (.pdf) Orð og tunga 9:75-107. Reykjavík. 2007.

Sigrún Helgadóttir, Ásta Svavarsdóttir, Eiríkur Rögnvaldsson, Kristín Bjarnadóttir og Hrafn Loftsson. 2012. The Tagged Icelandic Corpus (MÍM). Proceedings of the Workshop on Language Technology for Normalisation of Less-Resourced Languages - SaLTMiL 8 - AfLaT2012, s. 67-72. Istanbúl, Tyrklandi.