Ústav pro českou literaturu AV ČR Institute of Czech literature of the CAS
Obsah vašeho košíku

Nemáte žádné položky v košíku

Workshop o digitálním výzkumu individuálního stylu a možnostech určování autorství

Autor: MICHAL CHARYPAR
Datum zveřejnění: 16. října 2023

Dne 27. září 2022 byl v budově Klementina pražské Národní knihovny uspořádán workshop s anglickým názvem „Authorial Style, Its Analysis, and Limits of Automatic Recognition“, věnující se otázkám autorského stylu a textové atribuce v širokém interdisciplinárním rozpětí od technologických věd až k humanitním oborům, tedy zejména od stylometrických přístupů v oblasti digital humanities po přístupy historické. Organizátoři pro něj zvolili sympatický formát sestávající z několika málo, zato však důkladněji připravených vystoupení.

Po úvodním referátu Michala Charypara (Ústav pro českou literaturu AV ČR) „Z nedávné historie: rozpoznávání autorství v české filologii v předkomputačním věku“, pojednávajícím o tradičních filologicko-historických metodách autorské atribuce, se k vlastní náplni workshopu vyslovili nejprve Martin Holub a Jakub Genči (oba z Ústavu formální a aplikované lingvistiky MFF UK) v příspěvku nazvaném „Rozpoznávání autorství jako úloha strojového učení“. Na korpusu třiceti knih, digitalizovaných v knihovně Kramerius, představili testovací výzkum kvantifikovatelných faktorů pro charakteristiku individuálního stylu, na jejichž základě pak poměřovali počítačovou predikci s autorstvím, jež bylo předem známé (šlo o texty šestice autorů). Na úzkém materiálovém poli dosáhli vysoké přesnosti predikce. Úspěšnost okolo 95 % byla zjištěna překvapivě už u osmivětých úseků (u jedné věty to bylo nad 55 %), kdežto u vícevětých úseků se procento úspěšnosti dále zvyšovalo jen zcela nepatrně. Klíč k autorskému stylu spatřují Holub a Genči v měření vzájemných proporcí nejčastějších n-gramů, generovaných podle odlišných kritérií. Potenciálnímu aplikování tohoto výzkumu na širší korpusy (např. na úrovni digitální knihovny) zatím podle našeho názoru brání poměrně náročná technická příprava: před počítačovým měřením bylo třeba u každého textu jednotlivě odstranit paginace, titulky a mezititulky, reklamy, tiskařské údaje na patičkách stran atd. Základním předpokladem digitálního určování atribuce při mnohonásobném navýšení počtu textů (a stylů autorství) v datasetu je pochopitelně zautomatizování těchto přípravných procesů, tak aby mohl nástroj být dostupný i běžnému uživateli. V zpracovávaném materiálu však může způsobit nekontrolovatelné změny.

Radek Čech (Katedra českého jazyka FF Ostravské univerzity) a Ján Mačutek (Katedra matematiky Fakulty prírodných vied a informatiky Univerzity Konštantína Filozofa v Nitre) poté představili příspěvek „Nejfrekventovanější slova jako nástroj rozpoznávání autorství“, vycházející z širšího výzkumu teorie textu, jenž operuje s lexikální diverzitou, vzdáleností mezi slovesy, distribucí větné délky a dalšími kritérii. Ve stylometrickém rozboru výročních projevů československých a českých prezidentů prokázali mj. nápadně vyšší délku slov u komunistických státních představitelů (od Gottwalda po Husáka) ve srovnání s předcházejícím i nejnovějším obdobím a spekulativně tento rys spojili s ideologickou podmíněností těchto projevů. V dalších ukázkách výzkumu, již provedeného v minulosti širším spektrem badatelů, se věnovali frekvenci nejčastějších slov ve vybraných textech Škvoreckého, Hrabala a Haška, otázkám identifikace anonymních překladatelů a adaptátorů mj. biblických textů ve starší české literatuře (a identifikace zdrojových textů pro tyto překlady a adaptace), dále problematice „autorských“ syntaktických vzorců nebo konečně kvantitativní analýze stylu českých barokních modliteb.

Zdenko Vozár (Centrum pro digitální výzkum náboženství FF Masarykovy univerzity v Brně — Národní knihovna České republiky) se ve svém referátu nazvaném „Mezi dvěma alchymistickými tradicemi: florilegia v pozdním středověku“ zabýval možnostmi kvantitativní klasifikace textu pomocí strojového učení na příkladu středověkých florilegií. Jde o antologie přísloví, výroků různých významných autorit apod., tedy o silně intertextuální žánr s mnohočetnou autorizací. Spíše než k přímému určování autorství vedl Vozárův výzkum k rozpoznání několika dílčích subtradic v rámci žánru, problematického i vysokou mírou překladovosti a proměnlivosti textu při reedicích. Také tento výzkum byl založen na četných binárních klasifikátorech a testování jejich úspěšnosti.

Andrej Zenkov (Uralská federální univerzita v Jekatěrinburgu) a Michal Místecký (Katedra českého jazyka FF Ostravské univerzity) přednesli příspěvek na téma „Dobrodružná čísla dobrého vojáka: pokračování románu o Švejkovi od Karla Vaňka z pohledu digitální statistiky“. V něm se pokusili popsat rozdíly v četnosti a distribuci číslovek a obecně číselných výrazů mezi Haškovým románem (separátně v prvním a druhém, respektive v třetím a čtvrtém dílu), Vaňkovým dokončením tohoto románu a jeho pokračováním s názvem Osudy dobrého vojáka Švejka v ruském zajetí. Použité statistické metody skutečně prokázaly rozdíly, avšak dlužno podotknout, že autoři částečně pracovali s ruskými překlady textů.

Na možné limity stylometrické analýzy autorského individuálního stylu upozornili Adrian Zasina (Ústav bohemistických studií FF UK) a Václav Cvrček (Ústav Českého národního korpusu FF UK). V referátu nazvaném „Autor a registr jako zdroje variací“ představili výzkum z oblasti korpusové lingvistiky, v němž vycházeli ze souboru textů dvou set autorů, z nichž každý podle zadání napsal čtyři dopisy různého typu (průvodní dopis, dopis z dovolené, stížnost a omluvný dopis). Měli tak k dispozici korpus umožňující na jedné straně zkoumání autorských idiolektů a na druhé registrů odpovídajících textovým typům či žánrům. Dospěli v intencích workshopu k poněkud překvapivému zjištění: jako stylisticky soudržnější (asi v poměru 1,5 : 1) se totiž ukázalo členění textů podle typů dopisů napříč autorským spektrem. Ustálená formální pravidla jednotlivých textových typů se tudíž projevila jako vlivnější stylotvorný faktor než odlišnosti různých autorských úzů. Individuální styl proto autoři doporučují zkoumat lépe v rámci jednoho určitého textového typu než napříč registry.

Petr Plecháč (Ústav pro českou literaturu AV ČR) přednesl příspěvek vycházející z jeho spolupráce s Davidem J. Birnbaumem (Katedra slovanských jazyků a literatur na Pittsburghské univerzitě) „Vliv typu verzifikace na úspěšnost rozpoznávání autorství básnických textů založené na rytmu“. Prezentoval v něm výzkum určující autorství na základě distribuce přízvučných a nepřízvučných slabik v náhodně vybraných stoveršových ukázkách textů básníků píšících v sedmi různých jazycích (česky, anglicky, německy, španělsky, maďarsky, italsky a rusky). S výjimkou angličtiny, kde se předmětem výzkumu staly pasáže v desetislabičném pětistopém jambu, se vždy jednalo o jedenáctislabičné verše. U každého subkorpusu podle individuálních jazyků bylo měření vždy provedeno desetkrát a jednotlivé odhady byly následně zprůměrovány. Zjištěné odlišnosti mezi subkorpusy autoři interpretují na základě verzifikačních typů, tedy jako rozdíly mezi rytmickým územ sylabického a sylabotónického verše, v poměru k distribuci slovního přízvuku v individuálních jazycích. Konstatují rovněž jistou korespondenci mezi pravidelností přízvuku a přesností rozpoznávání autorství (v tom smyslu, že u jazyků s méně striktními pravidly přízvukování jako čeština, angličtina či španělština je tato přesnost vyšší). V závěrečném referátu Jana Hajiče ml. (Ústav formální a aplikované lingvistiky MFF UK) a Františka Válka (Katedra filosofie a religionistiky FF Univerzity Pardubice) „Klasifikace autorství na různých rovinách delexikalizace“ byl představen pilotní projekt pražské Národní knihovny (zaštiťující instituce workshopu), jenž se zabývá zkoumáním autorského individuálního stylu na základě digitalizátů v knihovně Kramerius. V referátu popsaný stylometrický výzkum byl prováděn v základní fázi na textech šesti autorů (v rozšířené pak třiadvaceti); ve všech případech šlo o prozaické knižní texty vydané v druhé polovině 19. a v první čtvrtině 20. století. Také zde (srov. výše související výzkum Martina Holuba a jeho studentů) byla nutná technická příprava všech textů jednotlivě, prováděná z OCR přepisů zčásti automaticky a zčásti „ručně“. Pro lemmatizaci, tagování slovních druhů apod. pak byly využity internetově dostupné nástroje (UDPipe, NameTag). Referenti podali vyčerpávající percentuální přehledy úspěšnosti strojové predikce autorství u jednotlivých autorů a u vzorků v rozsahu od padesáti do jednoho tisíce tokenů, přičemž u nejvyšší rozsahové hranice se úspěšnost predikce mohla blížit až ke 100 %. Pokračováním daného výzkumu má být rozšiřování testovacího datasetu a v možném budoucím výhledu snad vytvoření nástroje, jímž by si uživatelé prostřednictvím Národní knihovny mohli ověřovat autorství libovolně zadávaných textů, uvažuje se však i o dalších (např. pedagogických) cílech.

Hned několik referátů potvrdilo skutečnost, že strojový výzkum stylu celkově spíše odhlíží od toho, nač autor při psaní obvykle vědomě dbá, jako je syntax, výstavba argumentu, volba slov apod., a má tendenci zaměřovat se na ty prvky individuálního stylu, nad nimiž autor často nemívá kontrolu a uchyluje se k nim víceméně nevědomě. Delexikalizace (a tedy i desémantizace) textu, automatické ohraničení tokenů podle prostého počtu znaků a nikoli podle formálně-sémantických celků, naproti tomu zvýšený důraz kladený na synsémantické (např. interpunkční) a kvantifikovatelné prostředky, to jsou stále jenom některé znaky charakteristické pro rozvíjející se strojový výzkum, který si vytváří autonomní pole a současně hledá nové možnosti uplatnění.

Jestliže se tradiční filologické přístupy využívané k určování autorství ukazují leckdy jako spekulativní a nespolehlivé, je o to významnější, že se odborníci hlavně v mladších generacích pokoušejí k této problematice přistupovat z jiných perspektiv a s novými prostředky. Nelze nicméně skrývat, že konkrétní výsledky, byť v některých případech slibné, se prozatím jeví jako hubené, dosažené na úzce vymezeném materiálu apod. Z hlediska literární vědy můžeme doufat, že nově rozpracovávané a aplikované digitální metody v budoucnu přispějí zejména k dosavadní textologii a pomohou řešit určité sporné kauzy textové atribuce. Potencionálním ziskem se též může stát dosud jen okrajové propojení literární vědy s některými digitálními technickými obory.


Vychází v České literatuře 3/2023.

Tento článek podléhá licenci CC BY-NC-ND 4.0 Mezinárodní. Plný text licenčních podmínek