Daily Archives: 26 listopadu, 2013
Musím něco, jsem jedi, mistře Anakine!
Další digital humanities s eRkem naprosto jasně věští katastrofu, tím spíš po minulém debaklu s wordcloudy, protože se mi pořád ještě nedaří úplně bez problému generovat cloud svého facebooku, natož cloud čehokoliv jiného. Tentokrát mě ovšem nezrazuje ani internet, ani počítač, nelze se tedy vymlouvat na nic jiného než na vlastní neschopnost. Inu s chutí do toho.
Nejdřív si text mining zkoušíme na Havlových a Klausových projevech, je asi vhodné zmínit, že pomalou učící křivku eRka se mi stále nepodařilo překousnout a většinu času jen tak matně tuším, co že to vlastně po tom programu chci. Nicméně daří se, krom posledního kroku, jako na potvoru se zase nedaří dostat z eRka wordcloud. Na zkoušku dávám dohromady kompletního Pána prstenů a zkouším si text mining na něčem příjemnějším, než jsou politické projevy. Přes lítý boj s diakritikou se nakonec daří a slavný dlouho očekávaný wordcloud je na světě. Z cloudu jsem tak nadšená, že si zapomínám nechat spočítat nejčastější shluky slov…
Přes voyant-tools se dá k podobným výsledkům dostat podstatně snáz a rychleji (pokud ovšem máte připravené seznamy českých stop-words, což jsem neměla, takže jsem si je musela nakonec napsat sama). Obzvlášť milé jsou grafy frekvence výskytu určitých slov v importovaném dokumentu, k LOTRovi vypadají frekvence výskytu postav asi nějak takhle, vlevo svislá osa četnost výskytu a spodní vodorovná osa vyznačuje tři jednotlivé knihy trilogie – průsečík pak četnost výskytu jména dané postavy v konkrétní knize.
Začíná mě to bavit, takže odněkud z hlubin disku vyhrabávám titulky ke Star Wars, nechávám eRko vyhodit nejčastější shluky slov a samozřejmě taky wordcloud. Ten může posloužit jako podklad pro další StarWarsMaraton, až se budou vymýšlet slova pro „společenské“ hry. Trochu zklamáním je fakt, že „Ať vás provází síla“ je ve všech šesti dílech jen čtyřikrát.
Podobně zkouším analyzovat i Hunger Games, když je teď ta dvojka v kinech (mimochodem od prvního dílu je to obrovský rozdíl, a pozitivní!). Shluky slov typu „I don’t know“, „but I don’t know“, „I don’t know how“, „I don’t know why“ mi vnukají nápad tímhle pro jistotu projíždět každou svojí budoucí práci a likvidovat tak slovní parazity. Minimálně autorům, kteří jsou schopní do jedné knihy nacpat osmnáctkrát „I don’t know what“ by zrovna tahle funkce eRka mohla být celkem ku prospěchu.
Přes voyant-tools ještě pro Hunger Games zkouším wordcloud a taky jak často se která postava v knize vyskytuje. Svislá osa opět značí četnost výskytu jména postavy v textu (vybrala jsem jen ty, které se vyskytují nejčastěji), na vodorovné ose jsou vyznačené jednotlivé kapitoly a průsečíky pak udávají četnost výskytu jména v dané kapitole.
Edit: Nakonec ze zvědavosti ještě třetí díl Hunger Games, pro porovnání jak se změní výskyt postav.
Katniss by sice logicky jako hlavní postava, která příběh vypráví, měla být v grafu nejvýš, protože se jí v celé knize ani na minutu nezbavíme, takže v tomhle graf trochu zkresluje. A pro slečny, které si stěžovaly, že někteří pánové neměli v druhém dílu dost prostoru – nebojte, ve trojce budou víc – viz. wordcloud pro třetí díl.
Čistě ze zvědavosti (a značně inspirována více než šedesáti „i don’t know“ v jedné knize) vykutávám ze starých školních složek svojí bakalářku a s tichým přáním, ať to není o moc horší než Catching fire si nechávám vygenerovat ještě wordcloud a četnost výskytu slov ve svojí bakalářce. Na grafu je hezky vidět jak se v určitých kapitolách drží hlavní pojmy hezky pohromadě, což byla hlavně teoretická část, v úvodu jsem se evidentně hodně věnovala médiím a praktická část je rozpadlá v nejrůznějších tématech – podle konkrétní části výzkumu.
A příště zase něco o televizních zprávách.