Z času na čas hodnotím filmy na csfd.cz. I zazdalo sa mi, že komentáre sa pri rôzne hodnotených filmoch rôznia. Myslel som si, že pri najlepšie hodnotených filmoch sú komentáre kratšie, pretože stačí napísať "geniálne", "vynikajúce" a je jasné, že väčšina vecí na filme je prevedená majstrovsky. Pri stredne hodnotených filmoch som si myslel, že tam bude komentár dlhší, pretože sa bude viac polemizovať a pri zle hodnotených filmoch bude komentár veľmi krátky ako "odpad", "omyl kinematografie", čo hovorí za všetko.
Tak som sa rozhodol, že vyrátam priemerný počet znakov na komentár pri rôznych filmoch. Keďže sa mi to nechcelo robiť príliš dlho, vzal som náhodne 5 filmov (tých známejších) rôznych hodnotení. Začal som pri 90 % a potom ďalej vždy o približne 10 % menej.
Snažil som sa nájsť filmy približne rovnajúce sa danému hodnoteniu. Potreboval som zistiť počet komentárov k filmu a celkový počet znakov. Urobil som to tak, že som skopíroval všetky komentáre do OpenOffice-u a dal som nahradiť text profil/všetky komentáre užívateľa prázdnym znakom a tak som zistil počet komentárov a zmazal som tak znaky, ktoré s komentárom nesúvisia. Z celkového počtu znakov som odrátal znaky hviezdičiek podľa hodnotenia a 7 znakov na 1 komentár, čo predstavovalo priemerný počet znakov v mene. Za znak sa považuje aj medzera (" "), ale medzery som neodčítal. Možno bolo treba odčítať asi 3 znaky na 1 meno kvôli medzerám.
Vyšlo mi niečo takéto - počet znakov na komentár:
90 % filmy: 365
80 % filmy: 321,5
70 % filmy: 360
60 % filmy: 338
50 % filmy: 320
... a ďalej sa mi nechcelo, pretože sa vôbec nepotvrdil môj predpoklad. Chcelo by to lepší štatistický súbor a tiež lepšie spracovanie komentárov, možno som sa niekde dopustil chyby, ale aj tak si myslím, že výraznejšie rozdiely počte znakov na komentár nebudú. Takto je priemerný komentár rovnocenný aspoň pre filmy nad 50 %.
Tak som sa rozhodol, že vyrátam priemerný počet znakov na komentár pri rôznych filmoch. Keďže sa mi to nechcelo robiť príliš dlho, vzal som náhodne 5 filmov (tých známejších) rôznych hodnotení. Začal som pri 90 % a potom ďalej vždy o približne 10 % menej.
Snažil som sa nájsť filmy približne rovnajúce sa danému hodnoteniu. Potreboval som zistiť počet komentárov k filmu a celkový počet znakov. Urobil som to tak, že som skopíroval všetky komentáre do OpenOffice-u a dal som nahradiť text profil/všetky komentáre užívateľa prázdnym znakom a tak som zistil počet komentárov a zmazal som tak znaky, ktoré s komentárom nesúvisia. Z celkového počtu znakov som odrátal znaky hviezdičiek podľa hodnotenia a 7 znakov na 1 komentár, čo predstavovalo priemerný počet znakov v mene. Za znak sa považuje aj medzera (" "), ale medzery som neodčítal. Možno bolo treba odčítať asi 3 znaky na 1 meno kvôli medzerám.
Vyšlo mi niečo takéto - počet znakov na komentár:
90 % filmy: 365
80 % filmy: 321,5
70 % filmy: 360
60 % filmy: 338
50 % filmy: 320
... a ďalej sa mi nechcelo, pretože sa vôbec nepotvrdil môj predpoklad. Chcelo by to lepší štatistický súbor a tiež lepšie spracovanie komentárov, možno som sa niekde dopustil chyby, ale aj tak si myslím, že výraznejšie rozdiely počte znakov na komentár nebudú. Takto je priemerný komentár rovnocenný aspoň pre filmy nad 50 %.
fajn výskum :)
ReplyDeleteK relevantným výsledkom by si sa dopracoval asi len vtedy, ak by si si vybral povedzme 20 používateľov (čím viac, tým lepšie) a 10 filmov odlišujúcich sa percentami (90%, 80%, 70% atď), ktoré však všetci tebou vybraní používatelia aj komentovali.
ReplyDeleteVšetko totiž závisí od používateľa. Sú takí, ktorí jednovetne okomentujú film s 90% aj s 50% a takí, ktorí sa rozpíšu pri akomkoľvek filme.