Většina činností, která je v souvislosti s datovou analytikou realizována, je zaměřena na dvě oblasti. První je regulatorní agenda, primárně ve finančním světě a ve světě utilit. Druhá oblast se věnuje analýze chování zákazníka a je vedená snahou nabídnout zákazníkovi ty správné produkty, prodloužit dobu, po kterou zákazník s firmou kooperuje (například nakupuje), získat nové zákazníky a maximalizovat marži.
Hlavní slovo, pokud jde o regulatorní agendu, má samozřejmě management. Co se týče druhé agendy, je to spíše Sales nebo Customer Relationship Management.
Kde mohou firmy tzv. narazit při zavádění datové analytiky?
Jednoznačně dostupnost a kvalita dat. Existuje spousta frameworků, jak se má dělat Master Data Management nebo Data Governance, jak data čistit, jak je udržovat v rozumné kvalitě atd. Jenže málokdo má postupy zavedeny v takové šíři, aby nějakým způsobem pokrývaly veškerá rizika.
Všechny informace, které těžím, jsou natolik kvalitní, nakolik jsou kvalitní vstupní data. Náklady na správu dat jsou však poměrně vysoké a málokdo s tím počítá, když projekt datové analytiky rozjíždí.
Jaké benefity plynou z využívání datové analytiky?
Podle všech pouček kvalitnější rozhodování. Což je trochu klišé, takže uvedu něco konkrétního.
V oblasti zákaznických analýz je benefitem například výraznější zvýšení konverze při cílených marketingových kampaních. Pokud správně vybereš ze svého zákaznického kmene ty, které oslovíš, získáš lepší odezvu vyjádřenou konverzí, že si ti lidé skutečně Tvůj produkt koupí, než když proces neřídíš a střílíš od boku, náhodně.
Co se týče oblasti regulatoriky, tam jde o snížení všech možných rizik. Výsledkem je třeba lepší auditovatelnost.
Nedávno jsem slyšel o výborném příkladu optimalizace spotřeby energie v datových centrech. Pomocí unsupervised learningu (což je metoda, kdy počítači neřeknete, co má hledat nebo co se má učit, on sám přichází na nějaké vztahy prostřednictvím hluboké neuronové sítě) zjišťovali vytížení datového centra, počítač poté podle toho vypínal nebo nevypínal zdroje (počítače, disková pole atd.). Za krátkou dobu se mu podařilo najít ustálený model, který neměl vliv na kvalitu obsluhy pro klienty, ale cíleným vypínáním nepoužívaných zdrojů či zařízení snížil spotřebu energie o 30 %, což je u datových center poměrně významná věc a úspora, protože tam je spotřeba opravdu obrovská. To je zajímavý benefit.
Jak optimalizovat procesy pomocí datové analytiky?
Jak už jsem řekl, v dnešní době veškeré činnosti podniků zanechávají digitální stopu. Vezměte si třeba prosté doručení faktury. Víte, kdy Vám faktura přišla, že ji někdo někdy naskenoval a poslal dál, všechno má časová razítka. Na základě transakčních logů můžete zjišťovat, kudy se faktura nebo jiný dokument pohybuje, jestli je cesta optimální nebo se dá vylepšit. To je oblast, kde se zatím datová analytika tak úplně nevyužívá. Za mě je to do budoucna směr, o kterém má smysl uvažovat.
Jaké jsou trendy v oblasti datové analytiky?
Uvedl bych pokusy o využívání nestrukturovaných dat, přičemž reálných business casů zatím moc není.
Dále rozumné nasazení machine learning, což byl příklad regulace spotřeby v datovém centru. Na spoustu úloh se však strojové učení nehodí, protože chybí popis kauzality. Pro lepší pochopení uvedu příklad pojišťovny, která v hromadě pojistných událostí má nějaké podvody.
Vy je potřebujete identifikovat, předat je dál lidem, kteří konkrétní případy prošetří a rozhodnou: je to podvod, není to podvod. Ti lidé potřebují vědět, proč si myslíte, že je to podvod. To Vám ale neuronová síť neřekne, té to prostě vyjde. Myslí si to, ale neříká to proto, že by znala fakta, která na podvod jasně ukazují. Takže s trendy trochu opatrně a nasazovat tam, kde to dává smysl.
Za zmínku stojí samoobslužná datová analytika. Čím dál tím více se firmy snaží přenést jednak schopnost, jednak odpovědnost za datové analýzy na koncového uživatele, nenechávat to na svém IT oddělení nebo nějaké externí organizaci. Má to své přínosy, typicky rychlost zpracování, interpretace informací. Označil bych to slovem demokratizace Data & Analytics.
Nebo třeba internet věcí (IoT). Mám spoustu čidel, která se mi různě potulují po republice nebo po světě, data z nich soustředím na jedno místo a vytěžuji je. Pro tento případ je typický koncept cloudového zpracování, tedy trend Data & Analytics v cloudu.
Zajímavý je i crowdsourcing. Znám jednu firmu, která působí v oblasti půjček. Má zpracované modely kreditního rizika, které říkají, komu půjčit může, komu raději ne. Za dobu, co funguje, jsou tyto modely dobře odladěné. Tahle firma se chtěla posunout dál, tak použila právě zmíněný crowdsourcing.
Vypsala celosvětovou soutěž, samozřejmě honorovanou, o to, kdo přijde s modelem, který situaci „neplatičů“ nejlépe vystihuje. Přihlášeným zpřístupnila anonymizovaná data o těch, kteří platili, i o těch, kteří se splácením měli problém, zafungovalo to a opravdu se jí podařilo model vylepšit.
Co dodat na závěr?
Technologické nástroje jsou fajn, v oblasti datové analýzy se dá dělat mnohé, ale strašně záleží na invenci lidí, kteří s nimi v dané firmě pracují a na jejich motivaci.
Zažil jsem projekt, kdy se postavil úžasný datový sklad, který pokrýval v podstatě všechny datové zdroje společnosti. Realizovaly se první dvě agendy – controllignové sestavy a rekonciliace dat mezi účetním a provozním systémem a nějaké marketingové věci a tím to skončilo.
Lidé, kteří projekt rozjížděli, byli plní entusiasmu, bohužel když odešli z firmy, kontinuita se přetrhla. Vše je vždycky nakonec o lidech. Technologie a postupy se až jejich prostřednictvím mohou stát skutečně užitečnými.