Gögn

CLARIN-IS varðveislusafn

Varðveislusvæði CLARIN-IS (repository.clarin.is) inniheldur fjölda gagna, bæði hugbúnað til málvinnslu, málleg gagnasöfn og mállýsingar af ýmsum toga. Allar afurðir Máltækniáætlunar fóru til að mynda þangað inn og flest þau gögn sem finna mátti á www.malfong.is einnig. Hægt er að leita á varðveislusvæðinu en til að einfalda yfirsýn og leit eru helstu gögn birt hér.

Málheildir

Trjábankar

Samtímalegi íslenski trjábankinn (IceConTree) 1.1 | 1.0
Sögulegi íslenski trjábankinn (IcePaHC) 2024.03 0.9
Sögulegi færeyski trjábankinn 0.1
NeuralMIcePaHC 20.05 | 20.04
GreynirCorpus 21.06 | 20.05 | 20.05
UD GreynirCorpus 22.06

Markaðar einmálamálheildir

Risamálheildin (RMH) 2022 |2021 | 2020 - CC-BY | 2020 - MIM | 2019 - CC-BY | 2019 - MIM | 2018 - CC-BY | 2018 - MIM
RMH - prófunarsett 20.09
Mörkuð íslensk málheild (MIM) 1.0
Orðtíðnibók (OTB) 18.10 | 12.11
Oðtíðnibók (OTB) - þjálfunar- og prófunarstt 20.05 | 18.10 | 12.11
MÍM-GULL 21.05 | 20.05 | 1.0 | 0.9
MÍM-GULL - þjálfunar- og prófunarsett 21.05 | 20.05 | 1.0
MÍM-GULL-NER – nafnakennslamálheild 22.06 | 21.09 | 20.06
MÍM-GULL-EL - málheild til nafnaeinræðingar 22.01
Fornritin sækja
IceSum - Icelandic Text Summarization Corpus 22.09 | 21.11
Íslenskt unglingamál
Málheild fyrir íslenskan námsorðaforða (MÍNO) 1.0 0.9

Villumálheildir

Íslenska villumálheildin (IceEC) 1.1 | 1.0 | 0.9
Villumálheild íslensks barnamáls (IceCLEC) 1.1 | 1.0
Villumálheild íslensku sem annars máls (IceL2EC) 1.3 | 1.2 | 1.1 | 1.0
Íslenska lesblinduvillumálheildin (IceDEC) 1.2 | 1.1 | 1.0
Gagnagrunnur íslenskra bannorða (iceTaboo) 1.0
Óorð íslensku villumálheildarinnar 20.09
Listi af handleiðréttum atriðum í lokaritgerðum 22.10

Samhliða málheildir

ParIce: Ensk-íslensk hliðstæð málheild 21.10 | 19.10
ParIce: Þjálfunar- og prófunargögn 21.10 | 20.05
Íslensk-ensk þjálfunargögn fyrir samröðun setninga 21.10
Icelandic-English Classification Training Set for Parallel Sentence Alignment Filtering sækja
Icelandic-English Parallel Sentence Extraction Dataset 21.10
En-Is Parallel Named Entity Robustness Corpus - Test data 1.0
Tilbúin samhliða málheild (íslenska-enska) með innskotsorðaforða 1.0
Samhliða gervimálheild (EN-IS) 21.07 | 20.09
En-Is Synthetic Parallel Named Entity Robustness Corpus 1.0
En-Is Semi-Synthetic Parallel Name Robustness Corpus 1.0
cities_is2en 20.09 | 20.05
countries_is2iso 20.09 | 20.05
isprep4cc 20.09 | 20.05
isprep4isloc 20.09 | 20.05
Long Context Synthetic Translation Pairs for English and Icelandic 22.09
Optimized Long Context Translation Models for English-Icelandic translations 22.09

Raddsýni og upptökur

Talrómur 21.02
Talrómur 2 22.10 21.12
Samrómur 21.05
Samrómur - fyrirspurnir 21.12
Samrómur - börn 21.09
Samrómur - L2 22.09
Samrómur - hermun 22.09
Samromur - óstaðfest 22.07
Spjallrómur - Icelandic Conversational Speech 22.01
Kennslurómur - Icelandic Lectures 22.01
Raddrómur - íslensk talgögn 22.09
RÚV TV data 20.12
RUV TV unknown speakers 22.02
Islex upptökur 1.0
Test Set for TTS Intelligibility Tests 22.01
Hjal málheildin sækja
Málrómur sækja
Alþingisumræður sækja
Alþingisgögnin (til talgreiningar) sækja
Jensson málheildin sækja
Þór málheildin sækja
Rúv málheildin sækja
Ravnursson - upptökur og hljóritanir á færeysku sækja

Aðrar málheildir

Íslenska ruglingsmengjamálheildin (ICoSC) 2.0 | 1.0
Málheild fyrir textanormun (Text Normalization Corpus) 21.10
NQiI - Natural Questions In Icelandic 1.1 | 1.0
Íslenska WinoGrande málheildin 1.0
RUQuAD - Málheild með spurningum og svörum (Háskólinn í Reykjavík ) 22.02

Orðasöfn og orðabækur

Orðabækur og orðanet

Íslensk framburðarorðabók 22.01 | 21.10 | 21.02 | 21.01
Íslensk nútímamálsorðabók 2020
Orðskiptingar 1.0 | 2.0
Islex orðabókin 2022 2013
Ensk-íslenskur / íslensk-enskur orðalisti 21.09
Íslenskt orðanet 21.06 | 21.02 | 20.09
IceWordNet sækja

Önnur orðasöfn

BÍN - skammstafanir 21.10
Stopporðalisti fyrir Risamálheildina 21.08
Gold Alignments for English-Icelandic Word Alignments 21.04
IceBATS - The Icelandic Bigger Analogy Test Set 21.06
Icelandic Multi-SimLex 21.06
Íslenskar leitarfyrirspurnarvillur (IceSQuEr) 0.1
Þýðingar á stofnunum, fyrirtækjum og titlum 22.01
Orðtíðnilisti Málheildar fyrir íslenskan námsorðaforða (MÍNO) 1.0
Listi yfir íslenskan námsorðaforða (LÍNO) 1.0
Orðasambönd á íslensku og ensku 22.09

Mállýsingar

Beygingarlýsing íslensks nútímamáls

BÍN 19.10
BÍN - rökliðaskrá 21.10
BÍN - Stórasnið 21.10
BÍN-kjarninn sækja
BinPackage 0.4.4 | 0.4.2 | 0.3.1

Annað

Icegrams 1.1.1 | 20.09
Icelandic Pronunciation 20.10
Íslensk mállíkön með framburðarorðabók 22.01
Framburðarorðabókin sækja
Almenn framburðarorðabók fyrir talgreiningu sækja
Mynstur og setningar sækja

Hugbúnaður og líkön

Tókarar, pos-markarar, lemmöld og þáttarar

ABL-tagger 3.0 | 2.0 | 1.0
ABL-lemmatizer 3.1.0
CombiTagger 1.0
Tokenizer - tilreiðari fyrir íslenska texta 3.4.2 | 3.4.1 | 3.3.3 | 3.3.2 | 2.3.1 | 2.0.3
IceParser 1.5.0
IceNLP Natural Language Processing toolkit 1.0
Íslensk taugaþáttunarpípa (IceNeuralParsingPipeline) 20.04
Tauganetsþáttari Miðeindar 1.0
GreynirPackage 3.5.2 | 3.5.1 | 3.1.0 | 2.6.1
UD-varpari 22.01
UDConverter - UD-varpari fyrir GreynirCorpus 22.06
UD-þáttari byggður á COMBO 22.10
Biaffine-based UD Parser 22.10

Nafnaþekkjarar

Icelandic NER API - Ensamble model 21.09
Icelandic NER API - ELECTRA-base model 21.05

Þýðingarvélar og líkön

GreynirTranslate - mBART25 NMT þýðingarlíkön fyrir íslensku og ensku 1.0
GreynirTranslate - mBART25 NMT (með lagamissi) þýðingarlíkön fyrir íslensku og ensku 1.0
GreynirT2T - En--Is NMT með Tensor2Tensor 1.0
GreynirT2T Serving - En--Is NMT Inference and Pre-trained Models 1.0
MT: Moses-SMT 1.0
GreynirSeq Domain Translation Pipeline 22.06
Íslenskt-pólskt þýðingarlíkan (tvíátta) 22.09
Víðsamhengislíkan fyrir þýðingar milli ensku og íslensku 22.09
Bestað víðsamhengislíkan fyrir þýðingar milli ensku og íslensku 22.09

Talgreining

RÚV-DI Speaker Diarization 21.10 | 20.09
RÚV-DI Speaker Diarization v5 models 21.05
Tiro: Vefgátt fyrir talgreiningu 1.0
Samrómur-börn - sýnisforskriftir fyrir Kalda 22.01
Samrómur-unglingar - sýnisforskriftir fyrir Kalda 22.06
Samrómur-L2 - sýnisforskriftir fyrir Kalda 22.10
Samrómur-NeMo sýnisforskriftir fyrir Kalda 22.06
Samrómur-DeepSpeech sýnisforskriftir fyrir Kalda 22.06
Greinarmerkingarlíkan 20.09
Íslenskt 6-stæðu mállíkan fyrir NeMo (Binary útgáfa) 22.06
DeepSpeech matsgjafi fyrir íslensku 22.06
Heyra 1.0
Raddskipanir og fyrirspurnir 22.10

Talgerving

Tiro: TTS vefþjónusta 22.10 | 22.06 | 1.0
FED-tól fyrir einkenni hljóðvistar með mælendaupplýsingum 20.09
MOSI: hugbúnaður til að meta gæði hljóðgervingar 22.01
Webrice-viðbótin 22.09 | 22.01
WebRICE - Veflesari 21.06
TTS Textavinnsla 22.10
TTS Skjalalesari 22.10
Íslenskur talgervill fyrir Android 22.10
Multi-speaker GlowTTS líkan fyrir Talrómur 2 (forútgáfa) 22.10
GlowTTS líkan fyrir Talrómur 1 22.10
Talrómur: TTS-líkan 22.10

Ýmis verkfæri fyrir talgreiningu og talgervingu

MAFIA (Match-Finder Aligner): Tal/texta-samhliðunartól 22.06
Tækjasafn fyrir talmálsheildir 22.06
Upload2S3 22.06
Hljóðritunarforrit (g2p) fyrir íslensku 22.10

Hljóðritun

Hljóðritunarlíkön fyrir íslensku 20.10
Hljóðritunarlíkön fyrir íslensku - þjálfuð á LSTM tauganeti 20.10
Vefviðmót til þess að vinna með framburðarorðabækur. 20.10
g2p-þjónusta 20.11

Málrýni

Multilabel Error Classifier (Icelandic Error Corpus categories) for Sentences 22.01
GreynirCorrect 3.4.5 | 3.4.4 | 3.2.1 | 3.2.0 | 1.0.2
Yfirlestur 1.0.1 | 1.0.0
Yfirlestur Docs 22.10
Yfirlestur Word 22.10
Leiðréttingarlíkan fyrir íslensku (fínþjálfað byT5-base Transformer-líkan) - Yfirlestur 22.09
Villuflokkari (flokkar íslensku villumálheildarinnar) fyrir tóka 22.05
Hunspell-IS. Villuleit, málfræðigreining og samheitaorðabók fyrir íslensku. sækja
ByT5-base Transformer-líkan fyrir flokkun íslenskra setninga 22.09
Spell and grammar checking – Thesis testing 22.10
Villurýnir fyrir Android 22.10

Orðgreypingar

Orðgreypingar – Word2Vec fínstillt fyrir IceBATS 22.04
Orðgreypingar – GloVe fínstillt IceBATS 22.04
Orðgreypingar - FastText fínstillt fyrir IceBATS 22.04

Annað

Alexia - orðtökutól fyrir íslensku 3.0 | 2.0 | 1.0
Skiptir 20.10
Annotald 1.0.0
GreynirSeq - málvinnsluhugbúnaður fyrir íslensku 0.2.0
Leiðréttingarforrit fyrir ljóslesin (OCR) texta á íslensku 22.10
AnySoftKeyboard (lyklaborð fyrir Android) með nýrri, íslenskri ritspá 22.10
IceEval - Viðmið fyrir mat og samanburð á íslenskum mállíkönum 22.09

Önnur gögn

Hér að neðan eru tilgreind önnur gögn sem eru leitarbær eða hægt er að sækja annars staðar en á varðveislusvæði CLARIN-IS.

Orðasöfn og orðabækur

Málheildir - textaskrár

CLARIN ERIC

CLARIN ERIC er rannsóknarinnviðaverkefni á vegum Evrópusambandsins – CLARIN stendur fyrir „Common Language Resources and Technology Infrastructure“ og ERIC stendur fyrir „European Research Infrastructure Consortium“. Samþykktir CLARIN ERIC hafa verið staðfestar af Framkvæmdastjórn Evrópusambandsins.

Meginmarkmið CLARIN ERIC er að öll stafræn málföng (language resources) og búnaður frá allri Evrópu (og víðar) verði aðgengileg með einni innskráningu (single sign-on) á netið, til nota í rannsóknum í hug- og félagsvísindum og innan máltækni.

CLARIN-IS

Ísland fékk aðild að CLARIN ERIC 1. febrúar 2020 en hafði verið áheyrnaraðili (observer) frá 1. nóvember 2018. Mennta- og menningarmálaráðuneytið fól Stofnun Árna Magnússonar í íslenskum fræðum að vera leiðandi aðili (leading partner) í landshópi (national consortium) Íslands í verkefninu og tilnefndi Eirík Rögnvaldsson prófessor emeritus sem landsfulltrúa (national coordinator). Þann 1. október 2021 tók Starkaður Barkarson, verkefnastjóri á Árnastofnun, við stöðu landsfulltúra. Flestar stofnanir sem málið varðar taka þátt í landshópi CLARIN-IS.

Árnastofnun rak fyrstu árin lýsigagnamiðstöð (CLARIN C-centre) en var aŕið 2023 samþykkt sem tæknileg þjónustumiðstöð (Service Providing Centre, CLARIN B-centre) þangað sem unnt er að sækja ákveðna þjónustu og fá aðgang að gögnum og þekkingu.

CLARIN á Íslandi

CLARIN-IS varðveislusafn

Málheildir

Trjábankar

Markaðar einmálamálheildir

Villumálheildir

Samhliða málheildir

Raddsýni og upptökur

Aðrar málheildir

Orðasöfn og orðabækur

Orðabækur og orðanet

Önnur orðasöfn

Mállýsingar

Beygingarlýsing íslensks nútímamáls

Annað

Hugbúnaður og líkön

Tókarar, pos-markarar, lemmöld og þáttarar

Nafnaþekkjarar

Þýðingarvélar og líkön

Talgreining

Talgerving

Ýmis verkfæri fyrir talgreiningu og talgervingu

Hljóðritun

Málrýni

Orðgreypingar

Annað

Önnur gögn

Orðasöfn og orðabækur

Málheildir - textaskrár

CLARIN ERIC

CLARIN-IS