Szövegbányászat workshop a Kiberbiztonsági Kutatóintézetben

Az Eötvös József Kutatóközpont Kiberbiztonsági Kutatóintézete a szövegbányászat eszközeiről és alkalmazási lehetőségeiről szóló online workshopot tartott 2020. december 16-án. A találkozón a vállalati és az akadémiai szféra egyaránt képviseltette magát, az adatbányászatra szakosodott hazai cégek munkatársai mellett szövegbányászatot alkalmazó társadalomkutatók és kriminológusok is jelen voltak.

Az eseményt Szigeti Ákos, a Kiberbiztonsági Kutatóintézet munkatársa, a Nemzeti Közszolgálati Egyetem Rendészettudományi Doktori Iskolájának PhD hallgatója vezette fel. Az előadók és résztvevők bemutatása mellett a bevezetőben szó esett a kutatóintézet kiberbűnözéssel foglalkozó kutatócsoportjában Dr. Kiss Tibor vezetésével zajló eTrust (Az eBizalom szerepe az illegális szerek online kereskedelmében) című kutatási projektről, melynek későbbi stádiumában a kutatók szövegbányászat alkalmazását is tervezik.

A workshop vendégelőadásainak sorát a Montana szakemberei nyitották. A Montana több mint harminc éve foglalkozik szoftverfejlesztéssel, jelenleg elsősorban mesterséges intelligencia alapú megoldások fejlesztésével, így szövegbányászattal is. Nagy Dániel és Hóbor András a cég Lexpert nevű, jogi szövegkereső megoldását mutatták be, amely hatalmas mennyiségű, eltérő forrásból származó szöveges adatállomány gyors feldolgozására képes. Az előadók kitértek az eszköz mögötti mesterséges intelligencia működési elvére is.

A második előadást a Clementine munkatársai tartották, Körmendi György cégvezető mellett Mészáros Evelin és Pancza Judit. A Clementine a természetesnyelv-feldolgozás terén világelithez tartozó International Business Machines Corporation (IBM) termékeinek hazai forgalmazója, emellett saját adatbányászati és szövegbányászati megoldásokat is fejleszt. Az előadók elsősorban a nyílt forrású megoldásokról, illetve ezek IBM termékekkel való összekapcsolásának lehetőségeiről beszéltek, majd bemutatták a cég rendvédelemben alkalmazott szövegbányászati megoldását is.

A szövegbányászat vállalati alkalmazásai után a társadalomtudomány képviseletében Knap Árpád, az Eötvös Loránd Tudományegyetem (ELTE) Szociológiai Doktori Iskolájának hallgatója, illetve a Research Center of Computational Social Science (RC2S2) kutatócsoport munkatársa következett. Knap Árpád az online antiszemitizmusról szóló, látens dirichlet allokáció topikmodellezési eljárással készült munkáját mutatta be, a nagyrészt Python-ban megvalósuló szövegbányászati folyamat és a topikmodellezési eljárás módszertani hátterére koncentrálva.

Ezt követően Rakovics Márton, az ELTE Statisztika Tanszékének tanársegédje, a Budapesti Corvinus Egyetem Szociológia és Kommunikációtudomány Doktori Iskola doktorandusz hallgatója, az RC2S2 kutatócsoport munkatársa beszélt a kurrens nyelvmodellek társadalomtudományi alkalmazásának lehetőségeiről. Az ún. skip-gram neurális háló modell és a gépi tanuláson alapuló transzformer modellek működési mechanizmusát bemutató előadásában kitért a modellek társadalomkutatási célú bevetésében rejlő, még kiaknázatlan lehetőségekre is.

A workshop utolsó előadását Richard Frank, a kanadai Simon Fraser Egyetem Kiberbűnözési Kutatóközpontjának vezetője tartotta. Előadásában bemutatta intézetének szövegbányászatot alkalmazó korábbi, aktuális és tervezett kutatási projektjeit. Beszélt többek között a radikalizációról szóló, szentimentanalízist alkalmazó kutatásának módszertani hátteréről, valamint az ún. random forest klasszifikációs algoritmuson és a TensorFlow nyílt forrású gépi tanulási módszeren alapuló, álhírekkel foglalkozó vizsgálatáról is.

Amellett, hogy az esemény rámutatott arra, hogy a szövegbányászatot a vállalati szférában és a társadalomtudomány tágabb spektrumában már sikeresen alkalmazzák, azáltal, hogy a résztvevőknek lehetőségük nyílt megismerni egymás munkáit, alkalmat adott a területen dolgozó szakemberek közötti új kapcsolatok kialakítására, illetve a régiek megújítására, a későbbi közös gondolkodás, közös munka megalapozására is.


Címkék: KBKI