mcbig + elkaca = filda
ZeroPage.cz
"
Statistika věda je, má však skryté údajeAuthor: Ondřej Tůma
Date: 15.02.2010 09:56
Čekají nás brzy velké předvolební přehlídky grafů, a statistik, jak co kdo zavinil ať už v dobrém nebo špatném. I já si trochu přihřeji polívčičku na budoucí předvolební bouři a trochu se zamyslím nad statistikami obecně. Použiji k tomu hned dva příklady, jeden zcela imaginární, druhý už o něco konkrétnější z IT prostředí. Číslům věřit můžete, zbytek je fikceNa internetu se v diskuzích pod mnohými grafy často objevuje údajný výrok Winston Churchilla: "Nevěřím žádné statistice, kterou jsem sám nezfalšoval.". Problém ale často není ve statistice, tedy v číslech, ale ve výkladu. Jako ukázkový příklad nám dobře poslouží statistika o prodeji a následných opravách dvou modelů aut. Mějme tedy tato data:
Sloupeček chybovost je čistě fiktivní údaj i když je matematicky správně, proč by tedy měl být fiktivní? Skutečnost je totiž taková, že čísla o prodeji a následných opravách o chybovosti vůbec nic neříkají. Jediné čemu odpovídají že modelu XGL 1000 se prodalo 1000 kusů a z toho 200 jich následně bylo opraveno. Ovšem o jaké opravy šlo nikde uvedené není! Možná už tušíte kam mířím. Fakt je takový, že čísla mohou znamenat cokoli, např. že XGL model si oblíbili zkušení řidiči, a pod jejich řízením auta méně trpí. Také to může znamenat, že s Energy + jezdí řidiči v těžkých podmínkách a proto auto více trpí. Nikde není napsáno za jaké období jsou tyto čísla nasbírána. Může to tedy také znamenat to, že model XGL je prostě novější model, a tedy všechny poruchy se ještě neprojevili. Dokonce to může znamenat, že došlo k nějakému hromadnému neštěstí a čistě náhodou to častěji odnesl model Energy. Poku se tedy již koukáte na nějakou zaručeně pravou statistiku, ideálně v nějakém krásném grafu, je třeba si uvědomit, co ona čísla ve skutečnosti znamenají. Samozřejmě že z čísel se dá ledacos vysledovat, a mohou řadu věcí napovědět, je ale důležité je nepřeceňovat! Chyba měřeníJako druhou statistiku uvedu smyšlené zastoupení prohlížečů, kterým však rozumím o mnoho více a i tady ukážu na některé chybné a urychlené závěry. Mějme tedy data za jeden rok, z nějakého velké části internetového trhu. Tedy dejme tomu že vzorek je dostatečně vypovídající a opravdu odpovídá skutečnosti:
Otázka tedy zní jaké se dají z takové statistiky vyvodit závěry ? Odpověď zní že pouze to, že internet si lidé prohlížejí ve 36 % Firefoxem, v 48 % Explorerem atd. Z této statistky totiž nepoznáme ani to, zda jde o unikátní návštěvníky. Teď možná mnoho "kovaných" odborníků namítne, že statistiky se počítají běžně na unikátní návštěvníky a nabídne i mnoho definic unikátního návštěvníka. Otázka ale je jak ho změřit ? :D Ve skutečnosti se jako unikátní návštěvník počítá každá nová veřejná IP adresa ze které byl odeslán požadavek na server v jeden den. Při dnešním nedostatku IPv4 adres je to ale docela směšný způsob. Mnoho takových návštěvníků totiž chodí na internet skrze různé routery a proxy servery. Za jednou IP adresou se tedy skrývá daleko více reálných návštěvníků. Někteří měří unikátnost podle cookie, nebo podle párování IP a prohlížeče, to ale také není zcela správné, prohlížeče mohou automaticky cookie mazat, nehledě na to, že při použití jiného prohlížeče si uživatel cookie opravdu nepřesouvá. Na druhou stranu, co když takový reálný uživatel navštíví stránku v práci a pak následně doma v jeden den, jsou to snad 2 reální uživatelé ? Pravda je tedy taková, že o "reálných" uživatelích můžeme jen polemizovat. U prohlížečů se ovšem objevují i jiné záludnosti, například někteří uživatelé mají z různých důvodů povinně nainstalované konkrétní prohlížeče v konkrétní verzi, ale běžně by takový prohlížeč již dávno nepoužili. Co se detekce prohlížeče týče, dala by se o tom napsat celá kniha, a žádná z běžně používaných metod není stoprocentní! Například takový Chrome a jiné prohlížeče postavené na jádru Webkit, se často hlásí pod jedním stejným řetězcem. A i když si nedělám iluze o zastoupení dalších alternativních prohlížečů, i interní webový prohlížeč v mém mobilním telefonu se hlásí dosti podobně. Některé prohlížeče se dokonce schválně hlásí jako jiné prohlížeče, aby oklamali detekci na straně serveru a nepřišli o nějakou funkčnost. Je tedy celkem častým jevem že prohlížeče si navzájem "ukrádají" z onoho koláče i přístupy, které jim ve skutečnosti nepatří. Pravda v těch číslech někde je, jen jí najítJak je tedy zřejmé u uvedených dvou příkladů, čísla ve statistice mohou mít velmi malou vypovídající hodnotu. A jakékoli související závěry, které mohou být ovlivněny dalšími jevy jsou fikce a přání prezentujícího. To všechno ale neznamená, že takové statistiky jsou zcela nepotřebné. Statistiky uvádí nějaká konkrétní, nebo přibližná čísla, které mohou pomoci k zisku, úspoře či čemukoli jinému. Jde jen o to jak ta čísla správně využít, aniž by se člověk odkláněl k nějaké teorii, která je jen teorií. |
Main menuTop 5 articlesDoporučujuJiné mé stránkyRSS a jiné![]() ![]()
|