KONFERENCA JEZIKOVNE TEHNOLOGIJE IN DIGITALNA HUMANISTIKA 2022

15. in 16. september 2022

https://www.sdjt.si/jtdh-2022
English page:
https://www.sdjt.si/jtdh-2022/en

Slovensko društvo za jezikovne tehnologije (SDJT), Center za jezikovne vire in tehnologije Univerze v Ljubljani (CJVT), Inštitut za novejšo zgodovino (INZ) ter raziskovalni infrastrukturi CLARIN.SI in DARIAH-SI so 15. in 16. 9. 2022 organizirali konferenco “Jezikovne tehnologije in digitalna humanistika”, ki se ponaša z več kot 20-letno tradicijo, tematsko širitev na digitalno humanistiko pa smo uvedli leta 2016.

  1. Zbornik konference
  2. Urnik konference
  3. Vabljeni predavanji
  4. Informacije o konferenci in družabnih dogodkih

Informacije v zvezi s COVID-19


Vabljeni predavanji

Benoît Sagot

“Large-scale language models: challenges and perspective”

Abstract:

The emergence of large-scale neural language models in Natural Language Processing (NLP) research and applications has improved the state of the art in most NLP tasks. However, training such models requires enormous computational resources and training data. The characteristics of the training data has an impact on the behaviour of the models trained on it, depending for instance on the data’s homogeneity and size. In this talk, I will speak about how we developed the large-scale multilingual OSCAR corpus. I will describe the lessons we learned while training the French language model CamemBERT, the first large-scale monolingual model for a language other than English, especially in terms of the influence of size and heterogeneity of the training corpus. I will also sketch out a few research questions related to biases in large-scale language models, with a focus on the impact of tokenisation and language imbalance, in the context of the BigScience initiative. I will conclude with my thoughts on the future of language models and their impact on NLP and other data processing fields (speech, vision).

Bio:

Benoît Sagot, Directeur de Recherches (Senior Researcher) at Inria, is the head of the Inria project-team ALMAnaCH in Paris, France. A specialist in natural language processing (NLP) and computational linguistics, his research focuses on language modelling, language resource development, machine translation, text simplification, part-of-speech tagging and parsing, computational morphology and, more recently, digital humanities (computational historical linguistics and historical language processing). He has been the PI or co-PI of a number of national and international projects, and is the holder of a chair in the PRAIRIE institute dedicated to research in artificial intelligence. He is also the co-founder of two start-ups where he uses his expertise in NLP and data mining for the automatic analysis of employee survey results.

Eetu Mäkelä

“Designing computational systems to support humanities and social sciences research”

Abstract:

From the viewpoint of the humanities and social sciences, collaborations with computer scientists often fail to deliver. In my research group, we have tried to understand why this is, and what to do about it. In this talk, I will discuss three key elements that we have discovered:

Often, datasets in the humanities and social sciences are not neatly representative of the object of interest. Systems need to provide ways in which to evaluate and counter the biases, confounders and noise in the data. Often, there is also a large gap between what is in the data, and what would be of interest. This gap needs to be bridged using algorithms, but care must be given that a) what the algorithm produces actually matches the interest and b) that its application does not introduce bias of its own (also interestingly, algorithm performance metrics of interest here often differ from those generally used in NLP/computer science). On a process level, collaboration between researchers from different disciplines is hard due to discrepancies in expectations relating to all facets of research, from research questions through methodology to the publication of results. Projects and systems need to acknowledge this, and be designed to facilitate iterative movement in the right direction.

Bio:

Eetu Mäkelä is an associate professor in Human Sciences–Computing Interaction at the University of Helsinki, and a docent (adjunct professor) in computer science at Aalto University. At the Hel­sinki Centre for Di­gital Hu­man­it­ies, he leads a research group that seeks to figure out the technological, processual and theoretical underpinnings of successful computational research in the humanities and social sciences.

Additionally, he serves as a technological director at the DARIAH-FI infrastructure for computational humanities and is one of three research programme directors in the datafication research initiative of the Helsinki Institute for Social Sciences and Humanities. For his work, he has obtained a total of 19 awards, including multiple best paper awards in conferences and journals, as well as multiple open data and open science awards. He also has a proven track record in creating systems fit for continued use by their audience.


Pred-konferenčne delavnice

V sredo, 14. 9. 2022, sta v okviru konference JTDH 2022 potekali dve delavnici:

Tematsko modeliranje parlamentarnih razprav pred in med epidemijo covida-19

Delavnica raziskovalke in raziskovalce s področja humanistike in družboslovja vpelje v svet rudarjenja besedil ter prikaže vrednost tovrstnih pristopov za družboslovne in humanistične raziskave. Na delavnici predstavimo posebnosti parlamentarnega diskurza in uporabo tematskega modeliranja za reševanje konkretnih raziskovalnih vprašanj. Praktični primer temelji na prosto dostopnem korpusu parlamentarnih razprav ParlaMint ter na orodju Orange. Znanje programiranja za delavnico ni potrebno, potreben pa je lasten prenosnik z nameščenim programom Orange.

Predavateljica: Ajda Pretnar Žagar

CLARIN.SI kot podpora raziskovalcem

Na delavnici boste spoznali raziskovalno infrastrukturo CLARIN.SI, ki nudi podporo pri ustvarjanju, obdelavi, arhiviranju in ponovni uporabi jezikovnih podatkov, kot so knjige, časopisi, družbena omrežja ter intervjuji. Na delavnici se boste naučili, kako lahko v digitalnem repozitoriju poiščete obstoječe jezikovne vire, relevantne za vaša  raziskovalna vprašanja, ter najpomembnejša orodja za analizo. Prav tako se boste seznanili z možnostmi strokovne in finančne podpore, ki jo CLARIN nudi raziskovalcem pri razreševanju pravnih vprašanj, uporabi ustreznih mednarodnih standardov in označevanju jezikovnih gradiv. Delavnica je primerna tako za začetnike kot že izkušene raziskovalce, ki pri svojem delu uporabljate pisne ali ustne vire, pa naj bo to na področju jezikoslovja, literarnih ved, prevodoslovja, zgodovine, medijskih študij, antropologije, sociologije ipd. in bi se želeli podrobneje seznaniti z raziskovalno infrastrukturo CLARIN.SI.

Predavatelja: Jakob Lenardič in Kristina Pahor de Maiti


Tematska področja konference

Na konferenco vabimo raziskovalce, ki delujejo v različnih disciplinah in metodoloških okvirih. Vabimo prispevke z naslednjih področij:

  • govorne in druge eno- in večjezične jezikovne tehnologije;
  • digitalno jezikoslovje: prevodoslovje, korpusno jezikoslovje, leksikologija in leksikografija, standardizacija;
  • digitalna humanistika in zgodovinopisje, literarne vede, etnologija, muzikologija, kulturna dediščina, umetnost ter arheologija;
  • digitalna humanistika v izobraževanju in digitalna publicistika.

Dobrodošli so prispevki, ki predstavljajo smernice, raziskave, dobre prakse, projekte in rezultate na teh področjih. V sklopu konference bodo tudi vabljeni predavanji, študentska sekcija ter paneli o aktualnih temah, povezanih s konferenco. Uradna jezika konference bosta slovenščina in angleščina.

Pomembni datumi

  • 15. 5. 2022 rok za oddajo prispevkov in povzetkov
  • 30. 5. 2022 podaljšani rok za oddajo prispevkov in povzetkov
  • 30. 6. 2020 obvestilo o sprejetju prispevka/povzetka
  • 15. 8. 2022 oddaja končnega prispevka/povzetka
  • 16. 8. 2022 rok za registracijo
  • 15.-16. 9. 2022 konferenca

Za konferenco zbiramo tako razširjene povzetke kot tudi polne prispevke. Razširjeni povzetki bodo objavljeni v knjižici povzetkov, polni prispevki pa v konferenčnem zborniku. Oboji bodo ob začetku konference objavljen na konferenčni spletni strani pod licenco Creative Commons. Avtorjem prepuščamo odločitev, ali bodo razširjeni povzetek oz. polni prispevek v recenziranje oddali anonimizirano ali ne.

Uradna jezika konference sta slovenščina in angleščina.

Razširjeni povzetki naj bodo dolgi do 2-4 strani, polni prispevki pa 6-8 strani v skladu s predlogo konference:

Prispevke zbiramo preko platforme EasyChair na tej povezavi.

Avtorji študentskih (polnih) prispevkov naj ob oddaji to označijo tako, dodajo ključno besedo (keyword) “študentski prispevek”. Pri študentskih prispevkih morajo biti vsi avtorji do- ali podiplomski študenti. Ti prispevki bodo imeli na konferenci svojo sekcijo, izbran in nagrajen pa bo tudi najboljši študentski prispevek

Organizacija

Za več informacij pišite na elektronski naslov Organizacijskega odbora (mojca.sorn@inz.si)

Organizacijski odbor

  • Mojca Šorn, predsednica (INZ)
  • Ana Cvek (INZ)
  • Kaja Dobrovoljc (FF UL, IJS)
  • Jerneja Fridl (ZRC SAZU)
  • Katja Meden (IJS)
  • Mihael Ojsteršek (INZ)
  • Nataša Rozman (INZ)

Programski odbor

Predsedstvo programskega odbora

  • Darja Fišer (predsednica), Filozofska fakulteta Univerze v Ljubljani in Inštitut za novejšo zgodovino
  • Simon Dobrišek, Fakulteta za elektrotehniko Univerze v Ljubljani
  • Tomaž Erjavec, Institut “Jožef Stefan”
  • Andrej Pančur, Inštitut za novejšo zgodovino
  • Matej Klemen (študentska sekcija), Fakulteta za računalništvo in informatiko Univerze v Ljubljani
  • Aleš Žagar (študentska sekcija), Fakulteta za računalništvo in informatiko Univerze v Ljubljani

Člani programskega odbora

  • Špela Arhar Holdt, Filozofska fakulteta, Univerza v Ljubljani
  • Petra Bago, Filozofska fakulteta, Univerza v Zagrebu
  • Vuk Batanović, Fakulteta za elektrotehniko, Univerza v Beogradu
  • Zoran Bosnić, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
  • Narvika Bovcon, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
  • Václav Cvrček, Inštitut češkega narodnega korpusa, Karlova univerza v Pragi
  • Jaka Čibej, Filozofska fakulteta, Univerza v Ljubljani
  • Helena Dobrovoljc, Inštitut za slovenski jezik Frana Ramovša, ZRC SAZU
  • Kaja Dobrovoljc, Filozofska fakulteta, Univerza v Ljubljani
  • Jerneja Fridl, ZRC SAZU
  • Polona Gantar, Filozofska fakulteta, Univerza v Ljubljani
  • Vojko Gorjanc, Filozofska fakulteta, Univerza v Ljubljani
  • Jurij Hadalin, Inštitut za novejšo zgodovino
  • Miran Hladnik, Filozofska fakulteta, Univerza v Ljubljani
  • Ivo Ipšić, Univerza na Reki
  • Mateja Jemec Tomazin, Inštitut za slovenski jezik Frana Ramovša, ZRC SAZU
  • Alenka Kavčič, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
  • Iztok Kosem, Filozofska fakulteta, Univerza v Ljubljani
  • Simon Krek, Laboratorij za umetno inteligenco, Institut “Jožef Stefan”
  • Jakob Lenardič, Filozofska fakulteta, Univerza v Ljubljani
  • Nikola Ljubešić, Odsek za tehnologije znanja, Institut “Jožef Stefan”
  • Nataša Logar, Fakulteta za družbene vede, Univerza v Ljubljani
  • Matija Marolt, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
  • Sanda Martinčić Ipšić, Univerza na Reki
  • Maja Miličević Petrović, Univerza v Bolonji
  • Dunja Mladenić, Laboratorij za umetno inteligenco, Institut “Jožef Stefan”
  • Matija Ogrin, Inštitut za slovensko literaturo in literarne vede, ZRC SAZU
  • Matevž Pesek, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
  • Dan Podjed, Inštitut za slovensko narodopisje, ZRC SAZU
  • Senja Pollak, Odsek za tehnologije znanja, Institut “Jožef Stefan”
  • Ajda Pretnar Žagar, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
  • Marko Robnik Šikonja, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
  • Tanja Samardžić, Univerza v Zurichu
  • Miha Seručnik, Zgodovinski inštitut Milka Kosa, ZRC SAZU
  • Mirjam Sepesy Maučec, Fakulteta za elektrotehniko, računalništvo in informatiko, Univerza v Mariboru
  • Marko Stabej, Filozofska fakulteta, Univerza v Ljubljani
  • Branislava Šandrih Todorović, Filološka fakulteta, Univerza v Beogradu
  • Mojca Šorn, Inštitut za novejšo zgodovino
  • Janez Štebe, Fakulteta za družbene vede, Univerza v Ljubljani
  • Simon Šuster, Univerza v Melbournu
  • Daniel Vasić, Univerza v Mostarju
  • Darinka Verdonik, Fakulteta za elektrotehniko, računalništvo in informatiko, Univerza v Mariboru
  • Andrej Žgank, Fakulteta za elektrotehniko, računalništvo in informatiko, Univerza v Mariboru
  • Jerneja Žganec Gros, Alpineon d.o.o.
  • Branko Žitko, Fakulteta za znanost, Univeza v Splitu