Jezikovni viri in servisi
Orodja
Konkordančniki:
- Gigafida 2.0, Kres, GOS
- NoSketch Engine (novejši grafični vmesnik), NoSketch Engine (starejši vmesnik) in KonText @ CLARIN.SI
- Nova beseda
- Evrokorpus
Obdelava besedil:
- slovnični pregledovalnik in črkovalnik slovenskih besedil Besana
- spletni vmesnik za oblikoskladenjsko označevanje in lematizacijo besedil JOS
- spletni vmesnik za oblikoskladenjsko označevanje, lematizacijo, iskanje imenskih entitet in označevanje udeleženskih vlog CJVT
- oblikoskladenjski označevalnik in lematizator za slovenski jezik Obeliks
- oblikoskladenjski označevalnik, lematizator, iskalnik imenskih entitet za standardno in nestandardno slovenščino CLASSLA
- skladenjski razčlenjevalnik SSJ
- določanje oblikoslovnih oznak in lem ZRC
- luščilnik terminologije za slovenščino LUIZ
- iskalnik imenskih entitet iz projekta RSDO
- orodje za odkrivanje koreferenčnosti iz projekta RSDO
- povzemalnik besedil iz projekta RSDO
Jezikovni korpusi
Enojezični splošni:
- Korpus pisnega jezika Gigafida 2.0, 1 milijarda besed
- Referenčni korpus Kres, 100 milijonov besed
- Korpus pisnega jezika Nova beseda, 318 milijonov besed
- Učni korpus ssj500k, 500.000 besed
- Prosto dostopen korpus ccGigafida, 100 milijonov besed
- Prosto dostopen korpus ccKres, 10 milijonov besed
- Korpus starejše slovenščine IMP, 3 milijone besed
- Skladenjsko označen korpus SDT, 30.000 besed
- Govorni korpus Gos, 1 milijon besed
Enojezični specializirani:
- Šolar: Korpus pisnih šolskih izdelkov, 1 milijon besed
- Korpus DSI: korpus besedil s področja informatike in računalništva, 14 milijonov besed
- KORP: korpus besedil odnosov z javnostmi, 1,8 milijona besed
Večjezični:
- korpus SPOOK: večjezični primerljivi prevodoslovni korpus
- Evrokorpus: dvo- in večjezični vzporedni korpusi besedil z različnih področij, v katerih je slovenščina vedno eden od jezikov, skupaj več kot 240 milijonov besed
- MULTEXT-East: oblikoslovno označen večjezični korpus, večjezične oblikoslovne oznake in računalniški leksikon
- TURK: večjezični korpus turističnih besedil
Projekti:
- CLARIN.SI: slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije
- SSJ: razvoj referenčnega korpusa in leksikalne baze slovenskega jezika s slovničnim analizatorjem ter razvoj pedagoških priročnikov za poučevanje slovenščine
- IMP: jezikovni viri starejše slovenščine
- JOS: jezikoslovno označevanje slovenskega jezika
- SIGNOR: korpus slovenskega znakovnega jezika in pilotna slovnica
- Phonological Development Tools and Cross-linguistic Phonology Project: fonološki razvoj slovenskih otrok (Kanada)
- RSDO: razvoj slovenščine v digitalnem okolju
Digitalne knjižnice
- IMP: digitalna knjižnica starejših slovenskih knjig
- dLib.si: Digitalna knjižnica Slovenije
- Wikivir: Slovenska leposlovna klasika: digitalizirano slovensko leposlovje
- e-ZRC: Elektronske znanstvenokritične izdaje slovenskega slovstva
Slovarji in leksikalni viri
Slovarski viri:
- Sloleks: slovenski oblikoslovni leksikon
- SSSJ: spletni slovar slovenskega jezika
- LBS: leksikalna baza slovenskega jezika
- IMP: slovar slovenskih zastarelih besed
- BOS@ZRC: slovarske zbirke na Inštitut za slovenski jezik Frana Ramovša ZRC SAZU
- Termania: portal brezplačnih slovarjev za različne jezike in področja
- gov.si: seznam večjezičnih spletnih slovarjev
- Evroterm: večjezična terminološka zbirka
- Islovar: terminološki slovar informatike
- Angleško-slovenski računalniški slovar
- sloWNet: slovenski semantični leksikon
- Wikislovar: splošni prosti slovar slovenščine
- Razvezani jezik: prosti slovar žive slovenščine
- Slovar tviterščine: slovarček nestandardne slovenščine
- Slovenski terminološki portal: iskanje po terminoloških virih in orodja za izdelavo novih terminoloških virov
Pedagoški priročniki
Preverjanje in učenje jezika
- Pregibnik: računalnik vam pregiba slovanske besede
- Sloleks: leksikon besednih oblik za slovenščino
- SFT: slovenščina za popotnike
Strojno prevajanje
- Presis: strojni prevajalnik za slovenščino-angleščino in slovenščino-nemščino
- Prevajalnik RSDO: strojni prevajalnik za slovenščino/angleščino
- Google translate: nevronski strojni prevajalnik za številne jezike
- bing Translator: nevronski strojni prevajalnik za številne jezike
- iTranslate: portal statističnih prevajalnikov za številne jezike
- DeepL: nevronski strojni prevajalnik za številne jezike
- eTranslation: nevronski strojni prevajalnik Evropske komisije
Govor
- eBralec: sintetizator govora
- Proteus TTS: sintetizator govora
- SAMPA-sl: SAMPA fonetični simboli za slovenski jezik
- Razpoznavalnik govora RSDO: avtomatska transkripcija zvočnih datotek
Jezikovni modeli in besedne vložitve
- vložitve fastText skip-gram CLARIN.SI-embed.sl 2.0
- prednaučena slovenska različica modela RoBERTa SloBERTa 2.0
- ostali modeli in večjezični modeli na voljo na repozitoriju CLARIN in 🤗 huggingface