Monthly Archives: Prosinec 2013
Nésém vám noviny
Už je to sice pár dní zpátky, ale blog se nějak nestihl napsat, takže aspoň zpětně. Na srovnávacích mediálních studiích jsme od plazení se po čtyřech s pravítkem a zvýrazňovačem nad novinami povýšili k sledování televizního zpravodajství. hodinu jsme zahájili na slovenském sídlišti, kde všechny možné i nemožné televize zapáleně dokumentovaly tzv. Devínsky masaker. Obzvlášť dramatického zpracování se události dostalo od TV Nova, jejíž reportáž si v ničem nezadala s trailery na nejnovější holywoodské blockbustery. Popravdě ani reportáže dalších televizních stanic na to nebyly o moc lépe – Prima, ČT, Al Jazeera i ABC. Jediná z těchto televizí přiznávala, že o událostech na sídlišti nemají dostatek ověřených informací – můžete hádat, která z uvedených to mohla být. Al Jazeera si pro změnu neodpustila události komentovat tím, že střelba byla motivovaná romským původem postřílené rodiny.
Na další hodinu srovnávacích mediálních studiích nám byl zadán úkol vskutku záludný. Sledovat zprávy a počítat střihy v jednotlivých reportážích, zaznamenat etnikum a odhadnout věk osob, které v reportáži přímo promluví, zhodnotit zda se zpráva zaměřovala na násilí a samozřejmě také zapsat, o jakou zprávu se jedná. Šesti týmům po čtyřech členech byly rozdány jednotlivé dny v týdnu, členové týmu si pak rozebrali televize – ČT, Novu, Primu a Krimi zprávy. Náš deníkový tým dostal na starost 26.11.
Televizní noviny na Nově, které jsem sledovala, dlouhodobě považuju za čiré zlo. Celkem mají cca 42 minut a celkem se v nich prostřídalo 21 reportáží. Už první reportáž byla na střihy velmi výživná, hemžilo se to dramatickými close-upy podkreslenými ještě dramatičtější hudbou. Dalším překvapením byl novácký inspektor, který mne tentokrát zklamal už jen tím, že nedoporučoval žádný mňamkózní recept jako plněné kuřecí kůže, ale místo toho se jen procházel po holešovické tržnici a neuvěřitelně protivným způsobem kritizoval (krom vánočních řetězů, které byly hlavním tématem reportáže) prakticky všechno, přičemž prodejcům nedal jedinou šanci se jakkoli projevit. Ostatně reportáž začala dramatickými záběry hořícího vánočního stromečku, a já už měla v tu chvíli chuť tu televizi zase radši vypnout.
Celé televizní noviny jsou tak trochu postavené na principu vyděsit-potěšit. Nechyběla reportáž o stromu na Staroměstském náměstí, polití slečny kyselinou v Plzni, viróza, která může usmrtit vašeho pejska, ale nebojte, operace žlučníků zvládají študenti medicíny podstatně lépe, než náš reportér. Samá dramata všedního dne, kdyby vám náhodou nestačil každodenní přísun životních tragédií a radostí hrdinů z Ulice.
Na závěr ještě reportáže o Krejčířovi a také o tom, jak snadno se můžete stát – pokud jste se už nestali – obětí převaděčů – a na konec nesmí chybět roztomilé zvířátko. Přidávám celou tabulku střihů, kdyby někdo měl odvahu nakouknout, za celé televizní noviny, pokud nepočítáme znělky (resp. počítáme pouze reportáže) to dělá cca jeden střih za čtyři sekundy. Televizi vypínám a na další tři roky s klidným srdcem a svědomím jak lilie zase zapomenu, jak že se ta věc vlastně zapíná. Uff. Read the rest of this entry
Od extrému do extrému
Předposlední a současně také předvánoční Digital Humanities jsme se dostali k jedné z prvních věcí, které mě ještě coby nestudenta StuNoMe právě k tomuhle oboru nalákaly. Sice jsem jen tak napůl tušila, k čemu všemu se tahle hračka dá použít, ale podívat se na celý film – tenkrát tuším Nolanova The Dark Knight – v jediném obrázku bylo samo o sobě cool enough. Tenkrát se mi ovšem ShotDetect stahoval podezřele dlouho, až jsem na něj zapomněla, načež se můj notebook odporoučel do věčných lovišť a ShotDetect zůstal na dlouho zapomenut.
ShotDetect zjednodušeně řečeno vychytává začátky a konce záběrů v obrazovém materiálu, který do něj nasypete. Potíž je v tom, že pokud nemáte Linux nebo Mac, máte zaděláno na veselé chvilky s francouzštinou. Pro Windows je program pouze ve francouzské mutaci a tudíž jsem využila toho, že naše spolužačka Klapi už přeložila základní výrazy, se kterými se tu potkáte. Nicméně mě potěšilo, že mi přece jen něco z té francouzštiny od gymplu v hlavě zůstalo. Slavné to pravda není.
Mám tu, samozřejmě pouze pro studijní účely, nejnovější (a jednu z nejlepších) bondovku Skyfall, tudíž jsem ShotDetectem prohnala právě tu. Co vypadlo, to jsem prohnala prográmkem ImageJ. Nejtmavší záběry vlevo dole, od extrému do extrému, nejsvětlejší vpravo dole. Ten světlý extrém jsou převážně záběry explozí, kterých zrovna tady bylo docela požehnaně. Když si ten obrázek rozkliknete, jsou tam ty záběry aspoň trochu vidět, kam vlastně který patří.
ShotDetect je tak trochu zlá mrcha. Zkoušela jsem udělat stejný graf i podle časové osy, aby bylo vidět kde se vyskytují extrémně světlé nebo tmavé záběry, ale ShotDetect je v tomhle směru trochu pomatenej a řadí mi to ne podle času, ale stylem obrázek číslo 89, 9, 91, 92 a tak dál, takže ImageJ místo hezkého grafu z toho dělá nepřehledný zmatek. Navíc mi ShotDetect některé filmy vůbec nechce nahrát, jiné sice nahraje, ale odmítá s nimi dál pracovat. Tvrdí, že analýza proběhla (což vyhodí asi po vteřině rozmýšlení) jen složka pro screeny zůstane prázdná. Takže třeba k Avengers se mi ho přemluvit nepodařilo.
Pro porovnání k akčnímu Bondovi jsem zkusila do ShotDetectu nasypat taky můj nejoblíbenější feel-good film, Beginners (pro dlouhé zimní večery směle doporučuji). Na delší povídání by to asi i bylo, jen nejdřív musím tuhle zlomyslnou věc donutit, aby ty záběry řadila hezky podle času a ne jak se jí zrovna zlíbí.
Edit (21.12.) Už jsem se radovala, že se mi podařilo donutit záludný ImageJ, aby řadil záběry za sebe v pořadí, v jakém jdou ve filmu. Na asi stopadesátý pokus se zadařilo překonat okamžik, kdy se program vždycky zasekne a bez zádrhelu to celé doběhlo do zdárného konce. Beginners vlevo jsou seřazený víceméně podle času, krom těch posledních obrázků, které do toho filmu zaboha nemůžu zařadit (a mám dojem, že některý tam ani nebyly…). To vpravo je podle stejnýho vzoru generovanej „graf“ Skyfall, přičemž se mi ImageJ pomstil za předchozí relativně povedené Beginners a seřadil mi to od půlky filmu do konce, a od začátku do půlky. Tudíž už radost z vítězství nad technikou nemám a budu muset dál koumat, jak ho donutit řadit to správně.
The world ended. Didn’t you get the memo?
Protože hrabání se v seriálech, filmech a knížkách není nikdy dost, minula nás na Digital Humanities projednou hodina strávená trápením se s eRkem a tentokrát jsme se (už hromadně) věnovali, v duchu text-miningu, šikovnému nástroji Voyant-tools. Což je ta pěkná věc, ze které vypadly všechny ty hezké grafy v minulých postech.
Voyant-tools je jednoduše nástroj, do kterého nasypete hromadu textu – v minulých postech komplet LOTR, Hunger games, Harry Potter, ale prohnala jsem tím i Jo Nesba, Avengers, Nolanovy Batmany nebo legendární The Room (nelze se nepodělit o wordcloud) – a voyant-tools to chvíli bude chroupat a pak vám vyhodí spoustu barevně podtrhaných slov, tabulek, wordcloud, nějaké grafy a spoustu klikatých čar. Co s tím?
Pohodlně se usaďte, asi to bude trochu delší povídání. V duchu (ne)trpělivého vyčkávání na devátý únor a s ním příchozí druhou část čtvrté řady Walking dead (Lumpík odpustí moje nadávání na World War Z, aneb oblíbila jsem si zombíky), jsem do voyant-tools nasypala anglické titulky prvních tří sérií. První problém byl stopwords. Prográmek v sobě sice už nějaké má, ale na různá it’s, i’ve, we’d to poněkud nestačí. Tudíž jsem věnovala dobrou hodinku či dvě probírání nejčastějších anglických stopwords. Pokud jde o titulky, kde vadí ještě časování, stopwords se dají použít i na tohle, pokud tedy nechcete časování odstraňovat v eRku či nedejbože ručně (a nebo taky naopak…). Kamarád Excel během chvilky vypotí řadu čísel od 001 až po 999 a ty stačí nakopírovat mezi stopwords. Není to elegantní řešení, ale funguje to rychle a celkem obstojně.
První výrazná povšimnutelná věc je wordcloud. Po aplikování stop-words se i z něj vyhází čísla a vypadá celkem k světu. Do infografik a na různé blbiny trochu použitelnější wordcloud bude, když si z voyant-tools necháme vypsat četnost výskytu jednotlivých slov a ty nasypeme to nástroje Tagul. Pak už stačí jen vybrat dostatečně jednoduchý obrázek k tématu (v minulém postu batman, avengers, hunger games, skyfall a nový, neuvěřitelně tragický man of steel). Podstatně líp to funguje, když je logo v vektor a ne bitmapa, respektive když tam nejsou žádné barevné přechody, a vůbec nejlíp to funguje, když je logo jednoduchý dvojbarevný symbol (viz právě batman nebo hunger games). U Walking dead aspoň nějak takhle: cloud z Tagulu, původní obrázek, a nakonec když se do toho vloží kámoš Photoshop.
Voyant-tools v hezky jednoduché a přehledné tabulce vypisuje četnost výskytu jednotlivých slov v každém nahraném dokumentu, respektive specifická slova pro daný dokument. Stejně tak vypisuje počet dokumentů v corpusu, počet slov a počet unikátních slov – v corpusu walking dead je těch unikátních 13,207. Najde nejdelší dokument – podle počtu slov (nejukecanější je překvapivě s02e01 s 8,899 slovy), najde nejfrekventovanější slova a slova, která mají obzvlášť specifický graf výskytu. Zkoušela jsem tak zjistit, jak často se ve kterém díle vyskytují hlavní postavy, což je hezky vidět právě na grafu frekvence výskytu slov.
Docela pěkně je tak vidět, kdo nepřežije první sérii, koho v druhé sérii sežerou zombíci a kdo naopak do seriálu postupem času přibude (a kdo taky záhy zase odpadne). Pokud se na seriál teprv chystáte, využijte grafu, ať víte koho si oblíbit, abyste pak nebyli smutní, že ho v druhém dílu sežerou. Obdobně (a trochu složitěji, protože se musí přepínat mezi dokumenty) se pomocí Words in document dá porovnat četnost slov v jednotlivých dílech. Na ukázku jen obrázek, o čem si tak nejvíc povídají v prvních dílech každé série. První série vlevo, druhá uprostřed, třetí vpravo.
Úplně stejně jako frekvence funguje i TermsRadio (kliknout! super věc!) které sice nepřináší žádný nový poznatek, zato se na ně pěkně kouká (a přijde mi, že je v tom líp vidět, kde se jaká slova vyskytují). Jednoduše si nakliknete jednu, nebo klidně všechny postavy v grafu a vlevo dole můžete zvolit forward. Plynule si tak přehrajete, v kterých dílech se kdo nejvíc vyskytuje (případně na které díly vůbec nestojí za to koukat).
To samé, jen trochu jinak (a otázka je, jestli přehledněji, každopádně je to barevné, je to graf, je to cool!) zobrazuje Bubblelines. Jednotlivé bubliny jsou frekvence výskytu slova, respektive tady spíš hlavních postav, v jednotlivých dokumentech – dílech – celého corpusu. Velikost bubliny pak udává četnost výskytu – čím častěji, tím je bublina větší.
Links by měly představovat síť propojených slov a výrazů skrz corpus. Jednotlivá slova se liší velikostí podle frekvence jejich výskytu. Jednoduše jde o cosi jako síť přátel na Facebooku generovanou přes Gephi. Velikost slov je jednoduše betweeness, hlavní postavy jsou nejdůležitější a propojují ostatní slova – jsou tedy betweeners. Každá postava má pak kolem sebe skupinu slov, které se ve spojení s nimi nejčastěji vyskytují.
Další docela zajímavý nástroj, který mě celkem překvapil přesností, je RezoViz, který zobrazuje vztahy mezi lidmi, místy a organizacemi skrze všechny dokumenty v corpusu. Spojení tvoří mezi každým párem lidí, míst nebo organizací, které najde ve stejném dokumentu.
Visualcolocator jednoduše zobrazuje propojení a síť nějak spolu svázaných slov. Tloušťka spojnice mezi slovy pravděpodobně udává jak často se na sebe konkrétní slova vážou.
Další funkce FeatureClusters vizualizuje vztahy mezi slovy na základě společných prvků setů slov, ve kterých se dané slovo vyskytuje. Jednotlivé nody se spojí, když mají společné stejné sety slov, které se kolem nich vyskytují. To by měla být ta menší kolečka kolem, ale je to beta verze a asi to nefunguje úplně správně, nebo mám cosi špatně s corpusem, protože mi místo společných slov zobrazuje pořád jen nesmyslné řady písmen.
Teď k trochu obskurnějším záležitostem. Naprosto nemám tušení, co má být tohle. Funkce Knots má alespoň podle voant-tools reprezentovat corpus jako shluk zakřivených čar. To by zatím odpovídalo. Každá linka představuje jedno vybrané slovo z corpusu skrze všechny dokumenty, které v corpusu jsou. Rozsah, ve kterém linie překrývají označuje úroveň korespondence nebo propojení jednotlivých slov. Hádám, a to jen velmi matně, že některé postavy (resp. slova) se vyskytují samostatněji, mají víc vlastních scén a nepečou s ostatními postavami – a tím pak vytvoří úplně mimo odbíhající čáru. Použití v tom moc nevidim, ale budiž. Je to docela hezkej barevnej zmatek.
Poslední a úplně nejobskurnější záležitostí je Flowerbed, což by měl být „jednoduchý vizualizační nástroj pro porovnávání dvou dokumentů“. Dokument je prezetován jako záhon, kde každé slovo je květina. Výška květiny určuje relativní četnost slova v dokumentu, okvětní lístky pak vlastnosti se slovem spojené. Údajně se tím dají dokumenty porovnávat, ale žádné kytky mi z toho nerostly a to jsem poctivě prozkoušela všech pětatřicet dílů navzájem. Inu, asi ta betaverze.
Bohužel je teď vánoční seriálová pauza, která je po obzvlášť napínavém mid-season finale čtvrté řady Walking dead snad za trest, tak se do dalších podobných srandiček k celé čtvrté řadě pustím až za dva měsíce… nemohl by už být únor?
Homeworks…
Popravdě mě tyhle domácí úkoly zatím dost baví. S eRkem sice úplně nejlepší kamarádi nejsme, ale zato se přátelím se spoustou dalších užitečných (to je sice diskutabilní, ale zase z toho lezou docela hezký věci) nástrojů, díky kterým si můžete dle libosti vytvářet hromadu rozmanitě barevných a tvarovaných wordcloudů. Koupě dalšího externího disku mi tak hrozí čím dál tím víc. Prosila bych jiný domácí úkol.