Ústav pro českou literaturu AV ČR Institute of Czech literature of the CAS
Obsah vašeho košíku

Nemáte žádné položky v košíku

Vtáka poznáš po perí, básnika (aj) po verši

Autor: JÁN MAČUTEK
Datum zveřejnění: 06. března 2023

Táto krátka, ale obsažná kniha Petra Plecháča spája dve oblasti lingvistického výskumu. Čerpá inšpiráciu z korpusovo a kvantitatívne orientovanej verzológie (pozri napr. Petr Plecháč a Robert Kolár: Kapitoly z korpusové verzologie, Praha, Akropolis 2017), ktorej postupy a výsledky potom využíva na návrh nových metód pri určovaní autorstva poetických textov. Tieto nové metódy sú aplikované na dve skupiny textov, najprv na drámu The two noble kinsmen (kde nie je celkom jasné, ktoré scény sú napísané ktorým autorom), potom na zbierku poézie ruského básnika Batenkova (jej editor je „podozrivý“ z doplnenia zbierky o svoje vlastné básne). Kniha pozostáva z úvodu a štyroch kapitol.

Petr Plecháč: Versification and Authorship Attribution

Prvá kapitola, ktorá je rozšírením práce Plecháča et al. („Versification and authorship attribution. Pilot study on Czech, German, Spanish, and English poetry“, Studia Metrica et Poetica V, č. 2, 2018, s. 29–54), predstavuje kvantitatívne metódy určovania autorstva. V krátkosti opisuje históriu týchto metód. Dajú sa vystopovať dve „vývojové vetvy“, a to „biblická“ a „shakespearovská“. Tá prvá začína v polovici 19. storočia skúmať biblické listy pripisované apoštolovi Pavlovi s cieľom zistiť, ktoré skutočne napísal on. Ako vhodné typické vlastnosti autora sa spomínajú dĺžka slova v písmenách (jej priemerná hodnota, resp. jej celé rozdelenie) a priemerná dĺžka vety v slovách (Otázka autorstva novozákonných listov tradične pripisovaných apoštolovi Pavlovi je „živá“ dodnes [pozri napr. J. Savoy: „Authorship of Pauline epistles revisited“, Journal of Information Science and Technology LXX, č. 10, 2019, s. 1089–1097]). Iná skupina bádateľov sa zhruba ešte o 50 rokov skôr zaoberala tými dielami Shakespeara, kde je jeho autorstvo (resp. jeho podiel na autorstve) sporné. Vzhľadom na charakter Shakespearovej tvorby sa tu na rozlíšenie autorov používajú rôzne vlastnosti verša.

Principiálne nové metódy sa objavujú po publikovaní prvej verzie Zipfovho zákona (G. K. Zipf: Selected Studies of the Principle of Relative Frequency in Language, Cambridge [MA], Harvard University Press 1932 — Existuje viacero modifikácií a zovšeobecnení pôvodnej verzie Zipfovho zákona, z ktorých zrejme najznámejším je Zipfovo-Mandelbrotovo rozdelenie [ich prehľad prináša P. Zörnig a G. Altmann: Unified representation of Zipf distributions. Computational Statistics & Data Analysis XIX, č. 4, 1995, 461–473]). Zipf priniesol nový pohľad na jazykové univerzálie — predpokladáme jeden spoločný matematický model pre nejakú vlastnosť všetkých jazykov (v tomto prípade pre usporiadané frekvencie slov), pričom parametre tohto modelu môžu nadobúdať hodnoty špecifické pre rôzne jazyky, autorov, časové obdobia a podobne. Po Zipfovi sa objavili viaceré pokusy pri určovaní autorstva využiť frekvencie slov (aj keď nie všetky navrhnuté metódy berú do úvahy kompletné texty, napr. niektoré pracujú len so substantívami). Tento prístup sa však ukázal byť neefektívnym, použitie funkčných slov, teda tých s najväčšími frekvenciami, vedie k oveľa presnejším záverom. Napokon Burrowsova delta (J. F. Burrows: „»Delta«: A measure of stylistic difference and a guide to a likely authorship“, Literary and Linguistic Computing XVII, č. 3, 2002, s. 267–287 — Aj pre Burrowsovu deltu bolo navrhnutých viacero modifikácií [pozri napr. S. Evert et al.: „Understanding and explaining Delta measures for authorship attribution“, Digital Scholarship in the Humanities XXXII, č. S2, 2017, s. ii4-ii16]), dnes jedna z najpopulárnejších metód, pracuje s n najčastejšie sa vyskytujúcimi slovami (n je ľubovoľne zvolené číslo) bez ohľadu na to, či sú funkčné alebo obsahové.

Po matematickej stránke je oveľa náročnejšou tzv. metóda oporného bodu (v češtine metoda podpůrných vektorů, po anglicky support-vector machine, v ďalšom SVM [pozri napr. I. Steinwart, A. Christmann: Support Vector Machines, New York, Springer 2008]). Jej cieľom je lineárna separácia dátových bodov, ktoré reprezentujú texty rôznych autorov, pričom separátor je nadrovinou, má teda dimenziu o jednotku menšiu ako priestor dát (napr. ak máme texty rôznych autorov zobrazené ako body v dvojrozmernej rovine, hľadáme jednorozmerný lineárny separátor, teda priamku, ktorá dokáže týchto autorov od seba oddeliť). V prípade, keď dáta nie sú lineárne separabilné, sa buď pripustí istá miera chybnej klasifikácie, alebo sa zvýši dimenzia priestoru dát tak, aby v priestore s vyššou dimenziou už dáta lineárne separabilné boli. U typického čitateľa tejto knihy sa nepredpokladajú znalosti matematiky nevyhnutné na úplné pochopenie tejto metódy, preto sa autor obmedzuje na jednoduché špeciálne prípady. Ich vysvetlenie pokladám za mimoriadne dobré, podarilo sa tu veľmi vhodne skombinovať výber „ľahko stráviteľných“ príkladov a rozumný kompromis medzi exaktnosťou a názornosťou výkladu. Nájdeme tu aj zmienku o validácii výsledkov dosiahnutých aplikáciou SVM a porovnanie SVM s Burrowsovou deltou (metóda SVM umožňuje na rozdiel od delty priradiť vlastnostiam textov rôzne váhy, čo môže byť výhodou v prípade, keď niektoré vlastnosti nedokážu dostatočne dobre odlíšiť autorov; na druhej strane je delta výpočtovo jednoduchšia, nevyžaduje si trénovaciu vzorku a vďaka tomu sa dá aplikovať aj na relatívne malé objemy dát).

Ťažisko knihy tvoria druhá a tretia kapitola, v ktorých sú navrhnuté nové metódy určovania autorstva poetických textov využívajúce charakteristiky verša. Druhá kapitola predstavuje takéto charakteristiky založené na troch vlastnostiach veršov. Ide o rytmus, rým a eufóniu.

Čo sa týka rytmu, spomenuté sú tri charakteristiky, rytmický profil (frekvencie prízvučných slabík v konkrétnych metrických pozíciách), rytmický typ (postupnosti prízvučných a neprízvučných slabík v celých veršoch) a rytmické n-gramy. Rytmický profil má jednu veľkú nevýhodu, nedokáže spracovať verše, v ktorých je jedna metrická pozícia obsadená viacerými slabikami, ani tie, kde zostáva prvá metrická pozícia neobsadená. V českej poézii ide o zriedkavé javy, ale v iných jazykoch (napr. v angličtine) sa takéto verše vyskytujú bežne. Preto má rytmický profil len obmedzený potenciál využitia. Neznamená to, že by rytmický profil apriórne nemal žiadne využitie — potenciálne by mohol byť prínosný ako dodatočný pomocný nástroj na rozlíšenie autorov, ktorí sa viac-menej zhodujú v iných charakteristikách (podľa príkladu zo s. 38 sa zdá, že dobre odlišuje poéziu Karla Hynka Máchu a Josefa Václava Sládka). Samozrejme zostáva otázne, či na tento účel neexistujú lepšie metódy a či sa takáto situácia vôbec vyskytne.

Nádejnejšie sa javí rytmický typ. Nemá problém zachytiť vyššie spomenuté metrické nepravidelnosti, dá sa teda použiť všeobecne. Autor uvádza ako jeho nevýhodu veľké množstvo typov vyskytujúcich sa s malou početnosťou. Rytmické n-gramy sú metodologicky niekde medzi rytmickými profilmi a typmi, zohľadňujú všetky po sebe nasledujúce n-tice realizácií rytmu vo veršoch (prvá n-tica je postupnosťou prízvučných, resp. neprízvučných slabík na prvej, druhej, …, n-tej pozícii vo verši, druhá postupnosťou slabík na druhej, tretej, …, (n+1)-vej pozícii, atď. Posledná takáto postupnosť n slabík sa končí na poslednej pozícii vo verši). Na určenie autorstva je použitých 100 rytmických typov s najvyššími frekvenciami a rytmické n-gramy pre n = 2,3,4.

Pri rýme autor používa sedem vlastností, z ktorých dve sú aplikovateľné len pre slová, ktoré obsahujú aspoň dve slabiky. Ak je cieľom výlučne určenie autorstva, toto obmedzenie nemusí byť mínusom; z teoretického uhla pohľadu by som však uprednostnil také vlastnosti, ktoré sú všeobecné a preto ľahšie interpretovateľné. Akýkoľvek posun v základnom teoretickom výskume má presahy aj do aplikácií; najväčší potenciál pre aplikácie pritom predstavuje vybudovanie vedeckej teórie, ktorá je schopná javy nielen popísať, ale aj vysvetliť. Základy filozofie vedy, o ktoré sa opiera súčasná kvantitatívna lingvistika (prinajmenšom smer vytýčený Gabrielom Altmannom), sa dajú nájsť v knihe G. Wimmer et al.: Úvod do analýzy textov, Bratislava, Veda 2003, s. 13–54 [autori čerpajú z diela M. Bunge: Scientific Research I, II, Berlin, Springer 1967]).

Eufónia, spomenutá ako jedna z využiteľných vlastností, nie je rozpracovaná do takej miery ako predchádzajúce dve vlastnosti. V knihe nie je navrhnutý žiadny metodologický postup, ktorý by ju zobral do úvahy, a pracuje sa v nej len s frekvenciami jednotlivých zvukov (čo je, ako aj autor priznáva, veľmi jednoduchá aproximácia eufónie).

V tretej kapitole sú tradičné (založené na frekvenciách slov) aj nové (využívajúce vlastnosti verša) metódy aplikované na určovanie autorstva v korpusoch českej, nemeckej a španielskej poézie. Keďže autori jednotlivých básní z týchto korpusov sú známi, ide vlastne o otestovanie a porovnanie týchto metód. Získané výsledky sa dajú pokladať za spoľahlivé, presnosť gramatickej (tokenizácia, morfologické tagy, lematizácia) aj poetickej (metrum, prízvuk, rým) anotácie je dôkladne rozdiskutovaná. Metóda SVM je aplikovaná na vlastnosti verša opísané v druhej kapitole. Tieto vlastnosti dokážu určiť autora s presnosťou, ktorá je porovnateľná s výsledkami dosiahnutými použitím najčastejšie sa vyskytujúcich slov (resp. bi-, tri- a tetragramov vytvorených z písmen). Veľkým prínosom je zistenie, že kombinácia využitia frekvencií lexikálnych jednotiek a charakteristík verša vedie k presnosti, ktorá je vyššia v porovnaní s využitím len jednej skupiny vlastností poetických textov.

Vo štvrtej kapitole sa autor venuje dvom známym prípadom sporného autorstva. Najprv skúma drámu The two noble kinsmen, ktorej scény sú prisudzované rôznym autorom (William Shakespeare, John Fletcher, podľa niektorých prameňov aj Philip Massinger). Rozhodnutie o autorstve navrhnuté aplikáciou SVM sa zhoduje s dvoma v minulosti publikovanými názormi. Na tomto mieste oceňujem triezve vyjadrenie, podľa ktorého metódy použité v tejto knihe nedokážu určiť autora jednej scény. Kvantitatívne metódy majú svoje veľké výhody, nie sú však žiadnym „všenástrojom“. Štatistika nikdy nemá nárok na vyslovenie absolútnej pravdy. Výsledky získané štatistickými metódami zostávajú v rovine návrhov, na základe ktorých vedec urobí rozhodnutie (pričom samozrejme musí brať do úvahy aj informácie získané inými ako štatistickými metódami).

Spoluautorom druhej podkapitoly je Artjoms Šeļa. V tomto druhom spornom prípade (básnická zbierka celkovo alebo čiastočne pripisovaná Gavrilovi Batenkovovi, ruskému autorovi z 19. storočia) nie je k dispozícii vzorka, ktorá by bola dostatočne veľká pre to, aby umožnila použitie SVM. Preto je uprednostnená delta metóda. Tá silne naznačuje, že časť básní od Batenkova nepochádza a že ich pravdepodobným autorom je editor zbierky.

Metódy navrhnuté v tejto knihe sú inovatívne, pričom pre poetické texty rozširujú a vylepšujú nástroje na určovanie autorstva. Niektoré možnosti sú však možno prirýchlo zavrhnuté ako problematické, zatiaľ čo iné, najmä rôzne aspekty eufónie, by si zaslúžili podrobnejšie rozpracovanie (aj keď táto problematika je natoľko rozsiahla a je v nej toľko otvorených otázok, že si zrejme vyžaduje najprv vytvorenie špeciálnej metodológie, overenie jej vhodnosti na poetických textoch a pod., pozri napr. Místecký et al.: „In search of euphony unit: A case study in Czech 1830s poetry“, Slovo a slovesnost LXXX, č. 1, 2019, 27–38).

Stotožňujem sa s tým, že priame porovnanie frekvencií všetkých rytmických typov (s. 39–40) môže byť problematické kvôli veľmi malým frekvenciám mnohých typov. Tento problém sa však asi dá obísť modelovaním celého rozdelenia usporiadaných početností. J. Mačutek navrhol ako model useknuté negatívne binomické rozdelenie („Regularity of rhythmic patterns in examples from Slovak poetry“, in B. P. Scherr, J. Bailey, E. V. Kazartsev (edd.): Formal Methods in Poetics, Lüdenscheid, RAM-Verlag 2011, s. 306–313 [pozri G. Wimmer, G. Altmann: Thesaurus of univariate discrete probability distributions, Essen, Stamm 1999, s. 575–576]). Vzhľadom na veľmi malý počet analyzovaných básní sa nedá vylúčiť, že na modelovanie usporiadaných početností rytmických typov bude treba použiť iné rozdelenie pravdepodobnosti. Zdá sa však, že usporiadané početnosti sa správajú dostatočne pravidelne na to, aby sa dal použiť jeden spoločný matematický model. Ako dáta slúžilo len päť slovenských básní od troch autorov, bolo by teda potrebné podstatne rozšíriť vzorku (pridať viac básní napísaných v rôznych jazykoch), ale zdá sa, že jeden z parametrov modelu by mohol byť charakteristickým pre autora. Ďalším možným pomocným nástrojom je relatívna entropia tohto rozdelenia, ktorá charakterizuje rytmickú homogenitu. Svoju minimálnu možnú hodnotu nadobúda v prípade maximálnej homogenity, keď sa v básni vyskytuje len jeden rytmický typ; čím je jej hodnota väčšia, tým heterogénnejší je rytmus. Heterogénnejší v tom zmysle, že najčastejšie sa vyskytujúci rytmický typ je menej dominantný a rozdelenie usporiadaných početností rytmických typov sa viac podobá na rovnomerné.

Predstavené nové metódy určovania autorstva poetických textov dávajú v kombinácii s tými doteraz používanými lepšie výsledky, pričom sa zdá, že sú vhodné bez ohľadu na jazyk, ktorým je text napísaný. Kniha predstavuje dva zaujímavé výsledky a iste bude zdrojom inšpirácie pre ďalší výskum v tejto oblasti. Okrem primárneho cieľa — vylepšenie metód na určovanie autorstva poetických textov — prináša podnety, ktoré túto oblasť presahujú. Vlastnosti verša použité v týchto metódach si žiadajú aj teoretický výskum, a idea použiť pri určovaní autorstva vlastnosti typické pre poéziu sa dá realizovať per analogiam aj pri iných žánroch (ak sa podarí identifikovať také vlastnosti typické pre jednotlivé žánre, ktoré prispejú k spoľahlivejšiemu určeniu autorstva). Recenzovaná kniha je teda ďalším kvalitným príspevkom Petra Plecháča k rozvoju (najmä, no nielen) verzológie.


Petr Plecháč: Versification and Authorship Attribution. Praha, Karolinum Press 2021. 96 strán.

Vychází v České literatuře 6/2022.

Tento článek podléhá licenci CC BY-NC-ND 4.0 Mezinárodní. Plný text licenčních podmínek