Egy világszínvonalú szegedi tartalomelemző eszköz

Avagy webes metaadat- és szövegfeldolgozó-elemző alkalmazás mesterséges intelligenciával

Nem tűnik könnyű fának, amikor belevágja egy laikus a fejszéjét ennek a témának a megismerésébe, pedig – ahogy mondani szokás – a “tálaláson nagyon sok múlik”. A nagyközönségnek szóló, a tudományos világon kívülre mutató cikk, vagy bejegyzés eddig nem igazán jelent meg erről a projektről, ezért mi most épp ezt a hiányt szeretnénk pótolni. Létezik egy a Szegedi Tudományegyetem kutatóihoz köthető és az SZTE Klebelsberg Könyvtár szolgáltatási környezetből üzemelő “dolog”, amit úgy hívnak: AVOBMAT. 

Kezdjük ott, hogy mi az AVOBMAT? Nem, ezt majd inkább később. Sokkal érzékletesebbnek gondoljuk, ha megmutatjuk, mire jó, ezért inkább ezzel szeretnénk kezdeni:

A fenti ábrán azt látjuk, hogy a Szegedi Tudományegyetem legpatinánsabb lapja, a több, mint fél évszázados múltra visszatekintő Szegedi Egyetem cikkei milyen témákkal foglalkoztak 1953-tól 2011-ig bezárólag. [Ezt a folyóiratot többnyire egyetemi épületek folyosóin lehetett megtalálni, ingyenes és az idők folyamán szinte mindvégig jellemző volt, hogy hallgatók és egyetemi munkatársak együtt szerkesztették. Az egyetemről, az egyetemi életről szól – főleg hallgatóknak, munkatársaknak és az érdeklődő nagyközönségnek.] 

Könnyen leolvasható az ábráról, hogy mikor, miről szólt a lap: amelyik témának vastagabb sáv jutott, az több szerepet kapott akkoriban (évszámok alul) a lap hasábjain. Például eléggé nyilvánvaló a kék szín, azaz a politikai cikkek felfutása a rendszerváltás környékén. Vagy az is jól kivehető, hogy a kétezres években a hallgatóknak szóló programokkal kapcsolatos témák kezdtek el dominálni. Micsoda aranybánya ez a politológusoknak, szociológusoknak! Ezt az ábrát az AVOMBAT-tal hozták létre.

És akkor most eljutottunk oda, hogy értelmet nyernek a “mi is ez?” kérdésre adható válaszok. Az AVOBMAT ugyanis egy olyan kutatási eszköz, ami képes nagy mennyiségű adatot és szöveget feldolgozni, majd azokat kritikusan elemezni. Ehhez mesterséges intelligenciával és nyelvfeldolgozásos technológiákkal támogatott módszereket és eszközöket alkalmaz. Ráadásul többnyelvű és egy felhasználóbarát, interaktív grafikus felületen fogja össze a funkciókat. Sőt, egyenesen olyan felhasználók számára lett kifejlesztve, akik nem rendelkeznek programozási ismeretekkel.

Az AVOBMAT tehát a már emlegetett politológusok, szociológusok, statisztikusok, bölcsészek, sőt akár orvosok vagy bármilyen más diszciplínákat kutató csoportok számára kifejlesztett tartalomelemzést készítő eszköz. Az a fő erénye, hogy rengeteg szöveg feldolgozására képes, amiből azután olyan konkrét kérdésekre adhatók hiteles válaszok, mint például (a fenti ábrára visszautalva): Foglalkoztatta-e az egyetemi ifjúságot a rendszerváltás kérdése? Hogyan változhattak a hallgatók versfogyasztási vagy versírási szokásai? – és így tovább.

Ezzel az eszközzel készült már olyan mintakutatás, ami a Tiszatáj című irodalmi folyóiratban vizsgálta a női és férfi szerzők arányát. Fölmérték azt is, hogy az egyes szerzők közül melyik volt a leggyakrabban megjelenő ugyanezen kiadvány életében [eláruljuk: Tandori]. Szintén az AVOBMAT-tal vizsgálták át az SZTE Klebelsberg Könyvtár SZTE Egyetemi Kiadványok című repozitóriumát, ami az egyetemi tudományos publikációk adatbázisa, arra a kérdésre fókuszálva, hogy milyen nyelven született a legtöbb tudományos munka? [Magyar / angol / német / francia / spanyol az első öt.] 

Megállapítható akár az is, hogy egy-egy személyre, íróra, költőre vonatkozóan (vagy akár egy bűnügyben keresett elkövetőre is gondolhatunk), milyen kifejezések a legjellemzőbbek. Az elkészült kutatásokat pedig az eszköz különféle diagramok, skálák, szófelhők és más grafikus ábrázolási technikák segítségével vizuálisan is képes láttatni.

Az AVOBMAT-tal emellett még számos más kutatás is lefolytatható, de talán már így is látható, hogy hasznosíthatósága rendkívül széleskörű. Lehetségessé teszi a felhasználók számára, hogy mindenféle szöveges adatbázisokat (pl. digitalizált folyóiratok, tudományos cikkeket és e-könyveket magába foglaló adatbázisok)  alapul véve metaadatok és teljes szövegű kulcsszavas keresések segítségével szűrjék, és a szűrt adatokon elvégezzék a különféle vizualizációs, hálózati- és nyelvtechnológiai elemzéseket. 

Az SZTE Klebelsberg Könyvtár Contenta összefoglaló néven elérhető repozitóriumai jelenleg több, mint 4,5 millió oldalnyi digitális szöveget tartalmaznak. Mivel ez egy hatalmas mennyiségű és egységesen struktuált “alapanyag”, ezért bizonyult épp megfelelő terepnek az AVOBMAT fejlesztése során a mintakutatások lefolytatásához.

A készítők 2021-ben egy igen alapos tanulmányban tették közzé eredményeiket, az illusztrációk is ebből a tanulmányból származnak. Ld: Péter Róbert, Szántó Zsolt, Bilicki Vilmos, és Berend Gábor. 2021. Az AVOBMAT (Analysis and Visualization of Bibliographic Metadata and Texts) Többnyelvű Kutatási Eszköz Bemutatása. Digitális Bölcsészet, sz. 4 (december), M:3-M:28. https://doi.org/10.31400/dh-hun.2021.4.3530. A készítők: 

Mit nyerhet a tudomány végeredményben mindezzel?
Például időt: a hagyományos módszerekkel történő szövegfeldolgozás – mondanunk sem kell talán – rendkívül időigényes folyamat, ami ilyesfajta mesterséges intelligenciát használó eszközökkel viszont rendkívüli módon lerövidíthető. Végső soron pedig a kutatói munka hatékonyságát, a források gazdaságosabb felhasználását teheti lehetővé. Az, hogy a legfrissebb tudományos információk utáni kutatás mekkora idő- és energiaráfordítást jelenthet, talán az orvostudomány területén és a koronavírus-járvány idején volt igazán kézzel fogható mindannyiunk számára. A gyógyítás mellett a legfrissebb nemzetközi ajánlásokat és publikációkat kellett tanulmányozniuk az orvosoknak, majd azokból kiszűrni a legtöbb helyen bevált módszereket és jó gyakorlatokat. Éppen ezért végezték el az AVOBMAT-tal a készítők a COVID-19-cel kapcsolatos kutatásukat. Honlapjukon jelenleg is elérhető ez a reprezentatív elemzés. Ennek lényege az volt, hogy a koronavírussal kapcsolatos tudományos publikációkból AVOBMAT-tal kibányászták a közös/fontos adatokat, információkat, amelyek végső soron a vírus kezelésében nyújtottak közvetlen segítséget. 

Természetesen mindez nem csak a kutatók, hanem az SZTE számára is elismerést szerezhet a szélesebb tudományos világban, hiszen a COVID-19-cel kapcsolatos AVOBMAT-kutatást az MTA mellett több külföldi egyetem is ajánlja, mint megbízható tudományos információforrást (pl. Beirut, Toronto). 

Az összefoglalónkból természetesen nem maradhat ki az AVOBMAT rövidítés magyarázata sem: Analysis and Visualization of Bibliographic Metadata and Texts, avagy Bibliográfiai Metaadatok és Szövegek Elemzése és Vizualizálása

További tájékozódási lehetőségek a témában:

Ezek is érdekelhetnek...