Číslům věřit můžete, zbytek je fikce
Na internetu se v diskuzích pod mnohými grafy často objevuje údajný výrok Winston Churchilla: "Nevěřím žádné statistice, kterou jsem sám nezfalšoval.". Problém ale často není ve statistice, tedy v číslech, ale ve výkladu. Jako ukázkový příklad nám dobře poslouží statistika o prodeji a následných opravách dvou modelů aut. Mějme tedy tato data:
Model
| prodáno | opraveno
| cyhbovost
|
Hibrid XGL 1000 | 900 | 90
| 10%
|
Hinrid Energy +
| 100
| 20
| 20%
|
Sloupeček chybovost je čistě fiktivní údaj i když je matematicky správně, proč by tedy měl být fiktivní? Skutečnost je totiž taková, že čísla o prodeji a následných opravách o chybovosti vůbec nic neříkají. Jediné čemu odpovídají že modelu XGL 1000 se prodalo 1000 kusů a z toho 200 jich následně bylo opraveno. Ovšem o jaké opravy šlo nikde uvedené není!
Možná už tušíte kam mířím. Fakt je takový, že čísla mohou znamenat cokoli, např. že XGL model si oblíbili zkušení řidiči, a pod jejich řízením auta méně trpí. Také to může znamenat, že s Energy + jezdí řidiči v těžkých podmínkách a proto auto více trpí. Nikde není napsáno za jaké období jsou tyto čísla nasbírána. Může to tedy také znamenat to, že model XGL je prostě novější model, a tedy všechny poruchy se ještě neprojevili. Dokonce to může znamenat, že došlo k nějakému hromadnému neštěstí a čistě náhodou to častěji odnesl model Energy.
Poku se tedy již koukáte na nějakou zaručeně pravou statistiku, ideálně v nějakém krásném grafu, je třeba si uvědomit, co ona čísla ve skutečnosti znamenají. Samozřejmě že z čísel se dá ledacos vysledovat, a mohou řadu věcí napovědět, je ale důležité je nepřeceňovat!
Chyba měření
Jako druhou statistiku uvedu smyšlené zastoupení prohlížečů, kterým však rozumím o mnoho více a i tady ukážu na některé chybné a urychlené závěry. Mějme tedy data za jeden rok, z nějakého velké části internetového trhu. Tedy dejme tomu že vzorek je dostatečně vypovídající a opravdu odpovídá skutečnosti:
Prohlížeč | Firefox | MS IE
| Chrome
| Opera
| Ostatní
|
Zastoupení
| 36%
| 48%
| 4%
| 2%
| 10%
|
Otázka tedy zní jaké se dají z takové statistiky vyvodit závěry ? Odpověď zní že pouze to, že internet si lidé prohlížejí ve 36 % Firefoxem, v 48 % Explorerem atd.
Z této statistky totiž nepoznáme ani to, zda jde o unikátní návštěvníky. Teď možná mnoho "kovaných" odborníků namítne, že statistiky se počítají běžně na unikátní návštěvníky a nabídne i mnoho definic unikátního návštěvníka. Otázka ale je jak ho změřit ? :D Ve skutečnosti se jako unikátní návštěvník počítá každá nová veřejná IP adresa ze které byl odeslán požadavek na server v jeden den. Při dnešním nedostatku IPv4 adres je to ale docela směšný způsob. Mnoho takových návštěvníků totiž chodí na internet skrze různé routery a proxy servery. Za jednou IP adresou se tedy skrývá daleko více reálných návštěvníků.
Někteří měří unikátnost podle cookie, nebo podle párování IP a prohlížeče, to ale také není zcela správné, prohlížeče mohou automaticky cookie mazat, nehledě na to, že při použití jiného prohlížeče si uživatel cookie opravdu nepřesouvá. Na druhou stranu, co když takový reálný uživatel navštíví stránku v práci a pak následně doma v jeden den, jsou to snad 2 reální uživatelé ? Pravda je tedy taková, že o "reálných" uživatelích můžeme jen polemizovat.
U prohlížečů se ovšem objevují i jiné záludnosti, například někteří uživatelé mají z různých důvodů povinně nainstalované konkrétní prohlížeče v konkrétní verzi, ale běžně by takový prohlížeč již dávno nepoužili. Co se detekce prohlížeče týče, dala by se o tom napsat celá kniha, a žádná z běžně používaných metod není stoprocentní!
Například takový Chrome a jiné prohlížeče postavené na jádru Webkit, se často hlásí pod jedním stejným řetězcem. A i když si nedělám iluze o zastoupení dalších alternativních prohlížečů, i interní webový prohlížeč v mém mobilním telefonu se hlásí dosti podobně. Některé prohlížeče se dokonce schválně hlásí jako jiné prohlížeče, aby oklamali detekci na straně serveru a nepřišli o nějakou funkčnost. Je tedy celkem častým jevem že prohlížeče si navzájem "ukrádají" z onoho koláče i přístupy, které jim ve skutečnosti nepatří.
Pravda v těch číslech někde je, jen jí najít
Jak je tedy zřejmé u uvedených dvou příkladů, čísla ve statistice mohou mít velmi malou vypovídající hodnotu. A jakékoli související závěry, které mohou být ovlivněny dalšími jevy jsou fikce a přání prezentujícího. To všechno ale neznamená, že takové statistiky jsou zcela nepotřebné. Statistiky uvádí nějaká konkrétní, nebo přibližná čísla, které mohou pomoci k zisku, úspoře či čemukoli jinému. Jde jen o to jak ta čísla správně využít, aniž by se člověk odkláněl k nějaké teorii, která je jen teorií.