Kapitoly z korpusové versologie — cesta správným směrem

Autor: JIŘÍ MILIČKA

Datum zveřejnění: 16. července 2018

Ve středoevropském prostoru se nikdy příliš nezdůrazňovala dichotomie mezi science a humanities, jak ji chápe anglo- a frankofonní svět. A tak už sám pojem literární věda (respektive Literaturwissenschaft, pojem těžko přeložitelný do jazyků západnějších než němčina) napovídá, že obor zabývající se literaturou by se neměl ve svých cílech, strategiích k nim vedoucích a rigoróznosti příliš odlišovat od svých soukmenovců. To samozřejmě neznamená, že celá středoevropská literární věda byla vědou, jakou je třeba biologie (koneckonců kompozicionalita slov v jazyce neurčuje význam celku vždy a dokonale, pomazánkové máslo by mohlo vyprávět), nicméně prakticky po celou dobu se na naší literárněvědné scéně pohybovali lidé, kteří se o to v rámci možností snažili — od sporů o Rukopisy přes Pavla Vašáka, Miroslava Červenku a Květu Sgallovou až po právě recenzovanou knihu.
Studie Petra Plecháče a Roberta Kolára stojí na třech metodologických pilířích. Prvním je, jak už název napovídá, hledání otázek a odpovědí v korpusu textů. Přestože literární věda má svoji vlastní bohatou tradici shromažďování korpusů textů a jejich vytěžování, tato kniha vědomě navazuje také na korpusy z pohledu lingvistického — jednak metodami práce, jednak využíváním dostupných lingvistických nástrojů, například lemmatizace (zde je třeba pochválit synergii s Ústavem teoretické a komputační lingvistiky na FF UK a Ústavem formální a aplikované lingvistiky na MFF UK).
Druhým pilířem je pak kvantifikace a statistické zpracování dat. Tento pilíř není jen častým společníkem pilíře prvního — sám předmět výzkumu, řeč vázaná, obsahuje z definice mnoho vzorů a pravidelností, takže ke statistickému zpracování přímo vybízí.
Třetím pilířem, který není ani tak metodologický jako spíš obecně epistemologický, je strukturace studie do jasně stanovených vyvratitelných/ potvrditelných hypotéz a jejich explicitní testování, pilíř, jenž považuji za nejdůležitější, který by však bez dvou výše jmenovaných sám příliš dlouho nestál. Velmi přitom oceňuji, že jsou uvedeny i hypotézy, které v testování neobstály, nikoli pouze ty s pozitivními výsledky.
Navzdory výše jmenovanému si kniha zachovává tradiční literárněvědnou konceptualizaci i terminologii, zachovává tedy kontinuitu a srozumitelnost. Srozumitelnost zajišťuje také podrobné a trpělivé vysvětlování metod a pojmového aparátu, díky čemuž je dostupnou nejen pro odborníky, ale i pro studenty a vlastně pro každého, kdo prošel středoškolskou matematikou a literární výchovou. Někdy jsou vysvětleny i skutečně základní matematické koncepty (například v kapitole 3.1.1.3 nás čeká opatrný úvod do analytické geometrie), jindy je čtenář postupně a takřka didakticky zasvěcen do poměrně sofistikovaných metod (korelační metriky, shlukové analýzy — mimochodem, ty jsou opravdu výborně a jednoduše vysvětleny) a vtažen do celého fisheriánského paradigmatu inferenčního testování hypotéz.
Jakožto člověk, který o evropské poetice četl naposledy před dvanácti lety, bych ocenil odkazy na definice pokročilejších literárněvědných pojmů, respektive nějaký slovníček na konci pro přehled, nicméně spíše z pohodlnosti, při troše úsilí jsem mohl číst knihu i bez něj.
Nyní k obsahu jednotlivých kapitol.
První kapitola rozkrývá frekvence prozodických systémů a odhaluje, že jsou dány generačně — jedná se tak trochu o rozcvičku, která neobsahuje složitější statistické koncepty, což vítám, neboť i nezkušený čtenář má možnost pomalu přivyknout a stává se žábou v pomalu se vařící vodě, ze které by jistě vyskočil, byv hozen rovnou do druhé kapitoly.
Druhá kapitola omezuje šíři prozodických systémů a věnuje se pouze systému sylabotónickému a jeho jednotlivým metrům. Ukazuje, že metra jsou, alespoň v rámci jednotlivých škol, spojena s určitou tématikou. Text postupuje hezky od opatrné explorace pomocí klíčových slov k následné formulaci hypotéz a jejich testování.
Třetí a nejrozsáhlejší kapitola jde ještě o úroveň níž a probírá podrobně metrická schémata začátků a konců jednotlivých básnických škol či směrů, s nimiž běžně pracuje literární historiografie.
Ve čtvrté kapitole se vlastně oklikou vracíme k časomíře, kterou jsme v první kapitole opustili, neboť se ukazuje, že kvantita samohlásky může za určitých okolností v metru kompenzovat její nepřízvučnost.
Konečně pátá, poslední kapitola nabízí shlukovou analýzu autorů podle stylu. Kromě nad (mé) očekávání dobrých výsledků oceňuji zejména popis metody, který není zjednodušující a přitom je velmi snadný na pochopení.
Při čtení mě napadlo několik poznámek k metodologii. Některé se týkaly spíše detailů. Kupříkladu v první kapitole na s. 20 bych místo směrodatné odchylky použil průměrnou relativní odchylku, která má přímočarou interpretaci a která není závislá na normálním rozdělení. Jiné se týkaly celkové koncepce metody. Kapitola 1.2 nabízí hezkou metriku sylabičnosti veršů, která si sice dokáže poradit se situací, kdy se v jedné básni střídají verše dvou různých délek, a to tím, že druhou nejčetnější délku vypouští, nicméně tak v datech zůstávají délky veršů podobné druhé nejčetnější hodnotě, což může snižovat skóre sylabičnosti. Například pokud se střídají verše s délkou zhruba 8 slabik a zhruba 12 slabik, tak v sekvenci (8, 12, 8, 12, 9, 12, 8, 13, 7, 12, 8, 11, 7, 12) zbude i po vypuštění druhé nejčastější hodnoty, tedy všech veršů o délce 8 slabik, několik sedmislabičných a devítislabičných veršů. Přitom by bylo jednoduché automaticky detekovat básně s bimodálním rozdělením délek veršů a následně metriku počítat pro každý modus zvlášť, a posléze oba výsledky spojit. Mělo by smysl úspěšnost metriky nějak otestovat, což ostatně platí pro všechny metriky v knize použité, které nebyly otestovány jinde.
V případě první hypotézy druhé kapitoly (a totiž že „v básních psaných čtyřstopými rozměry se objevují přírodní motivy častěji než v básních psaných pětistopými rozměry“ [s. 33]) bych nejprve našel všechna lemmata, která podle Wordnetu spadají do kategorie přírodní objekt, a následně sledoval klíčovost celé kategorie. Ovšem nikoli pomocí X2, ale pomocí nějaké míry velikosti efektu, například pomocí risk ratio a jeho konfidenčních intervalů. Použití X2 jako metriky klíčovosti je sice tradiční, ovšem poněkud nešťastné, neboť samotná nulová hypotéza (že frekvence slov ve sledovaném a referenčním korpusu je stejná) není realistická, čímž je její vyvrácení jen otázkou velikosti vzorku (pokud klíčovost chápeme jako inferenční testování, neměli bychom navíc provést Bonferroniho korekci na počet hypotéz? Z povahy věci vyplývá, že pokud testujeme klíčovost mnoha slov, některé z nich budou nad hranicí významnosti, i kdyby se jednalo o náhodně zpřeházený text). Podobně je na tom kapitola 3.3.3 (zabývající se preferencí jednoslabičných/různoslabičných ženských rýmů v závislosti na příslušnosti k básnické škole), kde bychom místo poněkud krkolomné srovnávací techniky pomocí inferenčních testů mohli očekávat programatické použití intervalů spolehlivosti pro rozdíl mezi hodnotami, který nás skutečně zajímá. To konec konců platí pro více méně celou třetí kapitolu. K tomu se váže velmi obecné doporučení používat randomizaci. Když porušíme strukturu dat náhodnými změnami (mnohokrát) a tato znáhodněná data srovnáme s původní strukturou, můžeme odhalit vlastnosti dané struktury. Statistické testy, jež autoři používají, pracují na stejném principu, jen místo náhodných změn prováděných fyzicky jsou výsledky modelovány pomocí algebry. Pokud se nebudeme na tyto modely spoléhat, ale uchýlíme se rovnou k randomizaci, můžeme snadno odhalovat i ty struktury, jejichž porušení pomocí modelů není snadné. Zároveň je randomizace velmi jednoduchá na pochopení (a v dnešní době levné výpočetní síly i jednoduchá na implementaci).
Závěrem — kniha se mi líbí z mnoha důvodů, jednak proto, že je ukázkovým představitelem toho, jak si představuji moderní literární vědu, ale také pro svou koncepci. Není jen výstupem z grantu a zářezem v RIVu, slepencem článků, ale ucelenou monografií v původním slova smyslu. Tedy zachycuje jakýsi ucelený příběh výzkumu, což je zvláště v českých poměrech skoro už vzácnost. Na studii je navíc poznat, že autory práce bavila, jednak na svěžím a srozumitelném stylu psaní, jednak na příležitostných skrytých žertech, které čekají na pozorné čtenáře.
Kniha je přehledná i graficky, kombinace dvou barev je funkční a čtenář ocení mimo jiné zeleně zvýrazněná krátká shrnutí na koncích kapitol. Nakonec je třeba ocenit i přínos nakladatele a redaktora, typografie je čtenářsky přívětivá a při četbě jsem nenarazil na prakticky žádné jazykové chyby. Snad jediná výtka v tomto směru směřuje k typům některých grafů, kdy spojitý by měl být použit pouze tam, kde čekáme mezi datovými body kontinuum, a sloupcový pro absolutní frekvence, nicméně i tak je grafická prezentace dat přehledná a funkční.
Moderní koncepce knihy je patrná také z její extenze v online světě, konkrétně na prominentní doméně versologie.cz, kde najdeme přístup nejen k interaktivním grafům, ale hlavně k 2,5 milionovému Korpusu českého verše (který ovšem bohužel není možné stáhnout), což je plně v souladu s dnešní doktrínou data or it did not happen. Stránka by si zasloužila vlastní samostatnou recenzi, proto se jí zde nebudu věnovat podrobněji, každopádně ji hodnotím velmi kladně.
Studie se soustředí na hypotézy, které jsou odvozeny z tradičních českých literárněvědných otázek a tím pádem se snaží spíše o deskripci, přičemž explanace a generalizace nechává stranou. To není chyba, spíše předem deklarovaný záměr práce. Myslím, že ať už autoři, nebo jiní, kteří se knihou nechají inspirovat (a inspirativní nepochybně je!) by se příště mohli věnovat více explanaci popisovaných jevů a odkrývat souvislosti poetiky s obecnými principy, ať už zachycenými v teoriích a experimentech psychologie, neurologie a kognitivní vědy, nebo odvozených ze zákonů teorie informace.
V každém případě stezka prošlapaná recenzovanou monografií odkryla horizonty, které vybízejí k další cestě. Podle mého názoru vede správným směrem a stojí za to se po ní vydat.

Petr Plecháč — Robert Kolár: Kapitoly z korpusové versologie. Praha, Akropolis 2017. 135 stran.

Vyšlo v České literatuře 2/2018.