KONFERENCA JEZIKOVNE TEHNOLOGIJE IN DIGITALNA HUMANISTIKA 2022 | SDJT – Slovensko društvo za jezikovne tehnologije

15. in 16. september 2022

https://www.sdjt.si/jtdh-2022
English page:
https://www.sdjt.si/jtdh-2022/en

Slovensko društvo za jezikovne tehnologije (SDJT), Center za jezikovne vire in tehnologije Univerze v Ljubljani (CJVT), Inštitut za novejšo zgodovino (INZ) ter raziskovalni infrastrukturi CLARIN.SI in DARIAH-SI so 15. in 16. 9. 2022 organizirali konferenco “Jezikovne tehnologije in digitalna humanistika”, ki se ponaša z več kot 20-letno tradicijo, tematsko širitev na digitalno humanistiko pa smo uvedli leta 2016.

Informacije v zvezi s COVID-19

Vabljeni predavanji

Benoît Sagot

“Large-scale language models: challenges and perspective” [Video]

Abstract: The emergence of large-scale neural language models in Natural Language Processing (NLP) research and applications has improved the state of the art in most NLP tasks. However, training such models requires enormous computational resources and training data. The characteristics of the training data has an impact on the behaviour of the models trained on it, depending for instance on the data’s homogeneity and size. In this talk, I will speak about how we developed the large-scale multilingual OSCAR corpus. I will describe the lessons we learned while training the French language model CamemBERT, the first large-scale monolingual model for a language other than English, especially in terms of the influence of size and heterogeneity of the training corpus. I will also sketch out a few research questions related to biases in large-scale language models, with a focus on the impact of tokenisation and language imbalance, in the context of the BigScience initiative. I will conclude with my thoughts on the future of language models and their impact on NLP and other data processing fields (speech, vision).

Bio: Benoît Sagot, Directeur de Recherches (Senior Researcher) at Inria, is the head of the Inria project-team ALMAnaCH in Paris, France. A specialist in natural language processing (NLP) and computational linguistics, his research focuses on language modelling, language resource development, machine translation, text simplification, part-of-speech tagging and parsing, computational morphology and, more recently, digital humanities (computational historical linguistics and historical language processing). He has been the PI or co-PI of a number of national and international projects, and is the holder of a chair in the PRAIRIE institute dedicated to research in artificial intelligence. He is also the co-founder of two start-ups where he uses his expertise in NLP and data mining for the automatic analysis of employee survey results.

Eetu Mäkelä

“Designing computational systems to support humanities and social sciences research” [Video]

Abstract: From the viewpoint of the humanities and social sciences, collaborations with computer scientists often fail to deliver. In my research group, we have tried to understand why this is, and what to do about it. In this talk, I will discuss three key elements that we have discovered:
Often, datasets in the humanities and social sciences are not neatly representative of the object of interest. Systems need to provide ways in which to evaluate and counter the biases, confounders and noise in the data. Often, there is also a large gap between what is in the data, and what would be of interest. This gap needs to be bridged using algorithms, but care must be given that a) what the algorithm produces actually matches the interest and b) that its application does not introduce bias of its own (also interestingly, algorithm performance metrics of interest here often differ from those generally used in NLP/computer science). On a process level, collaboration between researchers from different disciplines is hard due to discrepancies in expectations relating to all facets of research, from research questions through methodology to the publication of results. Projects and systems need to acknowledge this, and be designed to facilitate iterative movement in the right direction.

Bio: Eetu Mäkelä is an associate professor in Human Sciences–Computing Interaction at the University of Helsinki, and a docent (adjunct professor) in computer science at Aalto University. At the Helsinki Centre for Digital Humanities, he leads a research group that seeks to figure out the technological, processual and theoretical underpinnings of successful computational research in the humanities and social sciences. Additionally, he serves as a technological director at the DARIAH-FI infrastructure for computational humanities and is one of three research programme directors in the datafication research initiative of the Helsinki Institute for Social Sciences and Humanities. For his work, he has obtained a total of 19 awards, including multiple best paper awards in conferences and journals, as well as multiple open data and open science awards. He also has a proven track record in creating systems fit for continued use by their audience.

Pred-konferenčne delavnice

V sredo, 14. 9. 2022, sta v okviru konference JTDH 2022 potekali dve delavnici:

Tematsko modeliranje parlamentarnih razprav pred in med epidemijo covida-19

Delavnica raziskovalke in raziskovalce s področja humanistike in družboslovja vpelje v svet rudarjenja besedil ter prikaže vrednost tovrstnih pristopov za družboslovne in humanistične raziskave. Na delavnici predstavimo posebnosti parlamentarnega diskurza in uporabo tematskega modeliranja za reševanje konkretnih raziskovalnih vprašanj. Praktični primer temelji na prosto dostopnem korpusu parlamentarnih razprav ParlaMint ter na orodju Orange. Znanje programiranja za delavnico ni potrebno, potreben pa je lasten prenosnik z nameščenim programom Orange.

Predavateljica: Ajda Pretnar Žagar

CLARIN.SI kot podpora raziskovalcem

Na delavnici boste spoznali raziskovalno infrastrukturo CLARIN.SI, ki nudi podporo pri ustvarjanju, obdelavi, arhiviranju in ponovni uporabi jezikovnih podatkov, kot so knjige, časopisi, družbena omrežja ter intervjuji. Na delavnici se boste naučili, kako lahko v digitalnem repozitoriju poiščete obstoječe jezikovne vire, relevantne za vaša raziskovalna vprašanja, ter najpomembnejša orodja za analizo. Prav tako se boste seznanili z možnostmi strokovne in finančne podpore, ki jo CLARIN nudi raziskovalcem pri razreševanju pravnih vprašanj, uporabi ustreznih mednarodnih standardov in označevanju jezikovnih gradiv. Delavnica je primerna tako za začetnike kot že izkušene raziskovalce, ki pri svojem delu uporabljate pisne ali ustne vire, pa naj bo to na področju jezikoslovja, literarnih ved, prevodoslovja, zgodovine, medijskih študij, antropologije, sociologije ipd. in bi se želeli podrobneje seznaniti z raziskovalno infrastrukturo CLARIN.SI. [PDF]

Predavatelja: Jakob Lenardič in Kristina Pahor de Maiti

Predstavitev vmesnih rezultatov projekta “Razvoj slovenščine v digitalnem okolju”

V petek 16.9 je ob zaključku konference potekala še predstavitev projekta Razvoj slovenščine v digitalnem okolju – jezikovni viri in tehnologije, v kateri so vodje delovnih sklopov predstavili trenutne rezultate projekta. [Video]

Tematska področja konference

Na konferenco vabimo raziskovalce, ki delujejo v različnih disciplinah in metodoloških okvirih. Vabimo prispevke z naslednjih področij:

govorne in druge eno- in večjezične jezikovne tehnologije;
digitalno jezikoslovje: prevodoslovje, korpusno jezikoslovje, leksikologija in leksikografija, standardizacija;
digitalna humanistika in zgodovinopisje, literarne vede, etnologija, muzikologija, kulturna dediščina, umetnost ter arheologija;
digitalna humanistika v izobraževanju in digitalna publicistika.

Dobrodošli so prispevki, ki predstavljajo smernice, raziskave, dobre prakse, projekte in rezultate na teh področjih. V sklopu konference bodo tudi vabljeni predavanji, študentska sekcija ter paneli o aktualnih temah, povezanih s konferenco. Uradna jezika konference bosta slovenščina in angleščina.

Pomembni datumi

~~15. 5. 2022 rok za oddajo prispevkov in povzetkov~~
~~30. 5. 2022 podaljšani rok za oddajo prispevkov in povzetkov~~
~~30. 6. 2020 obvestilo o sprejetju prispevka/povzetka~~
~~15. 8. 2022 oddaja končnega prispevka/povzetka~~
~~16. 8. 2022 rok za registracijo~~
~~15.-16. 9. 2022 konferenca~~

Navodila za prispevke

Za konferenco zbiramo tako razširjene povzetke kot tudi polne prispevke. Razširjeni povzetki bodo objavljeni v knjižici povzetkov, polni prispevki pa v konferenčnem zborniku. Oboji bodo ob začetku konference objavljen na konferenčni spletni strani pod licenco Creative Commons. Avtorjem prepuščamo odločitev, ali bodo razširjeni povzetek oz. polni prispevek v recenziranje oddali anonimizirano ali ne.

Uradna jezika konference sta slovenščina in angleščina.

Razširjeni povzetki naj bodo dolgi do 2-4 strani, polni prispevki pa 6-8 strani v skladu s predlogo konference:

razširjeni povzetek: primer, predloga za Word
polni prispevek: primer, predloga za Word, predloga za LaTeX
predloge obstajajo tudi za prispevke v angleščini; te so dostopne na angleški strani konference

Prispevke zbiramo preko platforme EasyChair na tej povezavi.

Avtorji študentskih (polnih) prispevkov naj ob oddaji to označijo tako, dodajo ključno besedo (keyword) “študentski prispevek”. Pri študentskih prispevkih morajo biti vsi avtorji do- ali podiplomski študenti. Ti prispevki bodo imeli na konferenci svojo sekcijo, izbran in nagrajen pa bo tudi najboljši študentski prispevek

Organizacija

Za več informacij pišite na elektronski naslov Organizacijskega odbora (mojca.sorn@inz.si)

Organizacijski odbor

Mojca Šorn, predsednica (INZ)
Ana Cvek (INZ)
Kaja Dobrovoljc (FF UL, IJS)
Jerneja Fridl (ZRC SAZU)
Katja Meden (IJS)
Mihael Ojsteršek (INZ)
Nataša Rozman (INZ)

Programski odbor

Predsedstvo programskega odbora

Darja Fišer (predsednica), Filozofska fakulteta Univerze v Ljubljani in Inštitut za novejšo zgodovino
Simon Dobrišek, Fakulteta za elektrotehniko Univerze v Ljubljani
Tomaž Erjavec, Institut “Jožef Stefan”
Andrej Pančur, Inštitut za novejšo zgodovino
Matej Klemen (študentska sekcija), Fakulteta za računalništvo in informatiko Univerze v Ljubljani
Aleš Žagar (študentska sekcija), Fakulteta za računalništvo in informatiko Univerze v Ljubljani

Člani programskega odbora

Špela Arhar Holdt, Filozofska fakulteta, Univerza v Ljubljani
Petra Bago, Filozofska fakulteta, Univerza v Zagrebu
Vuk Batanović, Fakulteta za elektrotehniko, Univerza v Beogradu
Zoran Bosnić, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
Narvika Bovcon, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
Václav Cvrček, Inštitut češkega narodnega korpusa, Karlova univerza v Pragi
Jaka Čibej, Filozofska fakulteta, Univerza v Ljubljani
Helena Dobrovoljc, Inštitut za slovenski jezik Frana Ramovša, ZRC SAZU
Kaja Dobrovoljc, Filozofska fakulteta, Univerza v Ljubljani
Jerneja Fridl, ZRC SAZU
Polona Gantar, Filozofska fakulteta, Univerza v Ljubljani
Vojko Gorjanc, Filozofska fakulteta, Univerza v Ljubljani
Jurij Hadalin, Inštitut za novejšo zgodovino
Miran Hladnik, Filozofska fakulteta, Univerza v Ljubljani
Ivo Ipšić, Univerza na Reki
Mateja Jemec Tomazin, Inštitut za slovenski jezik Frana Ramovša, ZRC SAZU
Alenka Kavčič, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
Iztok Kosem, Filozofska fakulteta, Univerza v Ljubljani
Simon Krek, Laboratorij za umetno inteligenco, Institut “Jožef Stefan”
Jakob Lenardič, Filozofska fakulteta, Univerza v Ljubljani
Nikola Ljubešić, Odsek za tehnologije znanja, Institut “Jožef Stefan”
Nataša Logar, Fakulteta za družbene vede, Univerza v Ljubljani
Matija Marolt, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
Sanda Martinčić Ipšić, Univerza na Reki
Maja Miličević Petrović, Univerza v Bolonji
Dunja Mladenić, Laboratorij za umetno inteligenco, Institut “Jožef Stefan”
Matija Ogrin, Inštitut za slovensko literaturo in literarne vede, ZRC SAZU
Matevž Pesek, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
Dan Podjed, Inštitut za slovensko narodopisje, ZRC SAZU
Senja Pollak, Odsek za tehnologije znanja, Institut “Jožef Stefan”
Ajda Pretnar Žagar, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
Marko Robnik Šikonja, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
Tanja Samardžić, Univerza v Zurichu
Miha Seručnik, Zgodovinski inštitut Milka Kosa, ZRC SAZU
Mirjam Sepesy Maučec, Fakulteta za elektrotehniko, računalništvo in informatiko, Univerza v Mariboru
Marko Stabej, Filozofska fakulteta, Univerza v Ljubljani
Branislava Šandrih Todorović, Filološka fakulteta, Univerza v Beogradu
Mojca Šorn, Inštitut za novejšo zgodovino
Janez Štebe, Fakulteta za družbene vede, Univerza v Ljubljani
Simon Šuster, Univerza v Melbournu
Daniel Vasić, Univerza v Mostarju
Darinka Verdonik, Fakulteta za elektrotehniko, računalništvo in informatiko, Univerza v Mariboru
Andrej Žgank, Fakulteta za elektrotehniko, računalništvo in informatiko, Univerza v Mariboru
Jerneja Žganec Gros, Alpineon d.o.o.
Branko Žitko, Fakulteta za znanost, Univeza v Splitu