ONTOLISST projekt – Egyéves helyzetkép

Az ONTOLISST projekt 2024 végén indult a KDK koordinálásával, nemzetközi konzorciumban, az Európai Unió finanszírozásával. A projekt célja, hogy többnyelvű, költséghatékony digitális eszközökkel javítsa a társadalomtudományi kutatási adatok kereshetőségét és összekapcsolhatóságát.

Az első év során tíz jelentős európai kutatási infrastruktúrától gyűjtöttünk survey metaadatokat, és interjúkat készítettünk a metaadatolásért felelős szakemberekkel. Az interjúk betekintést engedtek az intézményi gyakorlatokba, a tematikus osztályozási rendszerekbe és az archiválás új kihívásaiba. Ezek az információk alapvetően meghatározták a módszertanunk kialakítását.

A beérkezett metaadatokat több lépésben dolgoztuk fel, hogy létrehozzunk egy koherens, két szintű fogalomtárat. Az XML formátumú állományokat egységes szerkezetbe rendeztük, kinyerve a kérdésszövegeket, változóleírásokat és fogalmi kategóriákat. Átfogó adat-tisztítást végeztünk, amely magában foglalta a nem tematikus elemek, általános fordulatok, duplikátumok és hiányos szövegek eltávolítását. A tematikus kategorizálás unsupervised topic modeling és anchored clustering módszerekkel történt. A BERTopic algoritmus segítségével azonosítottuk a magasabb szintű klasztereket, amelyeket tíz átfogó tematikus kategóriává finomítottunk, meglévő ontológiák alapján. Több archívum fogalmait manuálisan rendeltük ezekhez a kategóriákhoz, létrehozva az összekapcsolási pontokat és biztosítva a konzisztenciát. Az összes kérdést elláttuk a LiSST keretrendszer aktuális felső szintű címkéivel, félig felügyelt klaszterezés és szakértői validáció támogatásával.

Az eddigi eredmények az EDDI konferencián kerülnek bemutatásra egy dedikált ONTOLISST szekcióban, amely két előadást és egy kerekasztal-beszélgetést foglal magában az interjúalanyokkal. A szekció lehetőséget teremt az eredmények megosztására és a jövőbeli irányok megvitatására a metaadat-standardizálás és tematikus annotáció területén.

A következő szakaszban körülbelül száz alsó szintű kategória meghatározására kerül sor. Ez a folyamat klaszterezési technikákat és vezető társadalomtudományi folyóiratok kulcsszavainak elemzését ötvözi, hogy a kategóriák igazodjanak a jelenlegi kutatási trendekhez. Az arányokat korrigáljuk a mintavételi torzítás kiküszöbölése és a kiegyensúlyozott reprezentáció érdekében. A validáció társadalomtudományi, nyelvészeti és archiválási szakértelem kombinációjára épül. Ezek a lépések teszik teljessé a LiSST tezauruszt, és megalapozzák egy gépi annotációt támogató eszköz és egy gold standard korpusz létrehozását.