e-mentor :: Big Data: nowe źródło przewag i wzrostu firm

» E-mentor nr 3 (50) / 2013

Big Data: nowe źródło przewag i wzrostu firm

Piotr Płoszajski

Nadchodzi szósta fala rewolucji komputerowej, której najistotniejsze składowe to wszechobecny, szerokopasmowy internet i nieograniczone przetwarzanie wielkich zbiorów danych o zachowaniu obiektów w czasie realnym. Zmusi ona firmy do adaptacji, a nawet porzucenia dotychczasowych modeli biznesowych, ale też przyniesie im potężne możliwości rozwoju. Informacje stają się nową podstawą funkcjonowania biznesu: ekonomicznym ekwiwalentem kapitału i pracy oraz nowym czynnikiem produkcji. Przetwarzanie danych jest dzisiaj najtańszym zasobem służącym rozwiązywaniu problemów zarządzania. Wygrają ci, którzy wcześniej niż inni dostrzegą tę zaczynającą się dopiero pojawiać szansę.

Szósta fala rewolucji komputerowej

W 2005 roku M. Copeland i O. Malik zaproponowali koncepcję piątej fali rewolucji komputerowej - po komputerach mainframe (pierwsza fala), minikomputerach (druga fala), PC (trzecia fala) i internecie (czwarta fala)¹. Wyjątkowo nie jest ona napędzana jednostkową, przełomową technologią, jak to miało miejsce w przypadku poprzednich. Wywołują ją, zdaniem autorów koncepcji, cztery główne „siły”: bezprzewodowy, wszechobecny internet, tanie i powszechne urządzenia komputerowe (od PC przez telefony komórkowe do chipów we wszystkich produktach), tanie i wszechobecne pasma częstotliwości nadawczo-odbiorczej oraz otwarte standardy (open source). Połączony efekt równoczesnego działania wszystkich tych sił daje początek nowej rewolucji.

Koncepcja ta, jakkolwiek słuszna, jeżeli chodzi o konieczność wyróżnienia nowego etapu w rozwoju technologii komputerowych, wymaga obecnie aktualizacji. Od 2005 roku przybyło bowiem kilka nowych, ważnych „sił”, które w sposób znaczący wzbogacają ten pakiet technologiczny i ponownie skokowo zmieniają warunki funkcjonowania społeczeństw, gospodarek, firm i jednostek. Nie jest wykluczone, że upoważnia to do mówienia już o szóstej fali rewolucji, na którą składają się dzisiaj:

wszechobecny, bezprzewodowy, szerokopasmowy internet,
internet obiektów - świat informacji, w którym (docelowo) wszystkie obiekty, ożywione i nieożywione, mają adresy IP i są zdolne do „porozumiewania się”, najczęściej bezprzewodowo,
skokowy wzrost wydajności procesorów,
radykalny spadek cen pamięci masowych,
technologia cloud computing,
otwarte standardy (open source) oraz oparta na nich powszechna współpraca „każdego z każdym”,
nowe metody przetwarzania masowych danych o zachowaniu obiektów w czasie realnym.

Szósta fala, zmieniając „informacyjny charakter świata”, po raz kolejny zmusi firmy do adaptacji, a nawet porzucenia dotychczasowych modeli biznesowych, ale też przyniesie nowe, potężne możliwości. Wynikać to będzie głównie ze zmiany charakteru baz danych. Dotychczas znakomita ich większość dotyczyła stanów z przeszłości. Jednak internet obiektów, z jego wszechobecnymi sensorami i nieograniczonymi pojemnościami pamięci, powoduje, że każdy przedmiot, produkt lub jego część i każda osoba stopniowo przyłączane są do sieci i nieustannie, w czasie realnym, aktualizują dane na temat miejsca, w którym się znajdują, i swego statusu. Chmury „rozmawiających z sobą” procesorów i wielkie zbiory aktualnych danych o ludzkim świecie powodują, że informacje z trudno dostępnych stają się wszechobecne, a zasoby firmy - „inteligentne”.

Dane będą więc nową podstawą funkcjonowania biznesu: ekonomicznym ekwiwalentem kapitału i pracy oraz nowym czynnikiem produkcji. W klasycznej teorii ekonomii za czynniki te uznawano: ziemię, pracę i kapitał. W nowej gospodarce znaczenie dwóch pierwszych radykalnie maleje. Posiadanie ziemi i zatrudnianie wielu pracowników przestaje być głównym źródłem sukcesu przedsiębiorstwa. Do jego osiągnięcia przyczyniają się dzisiaj natomiast: informacja, kapitał i z pewnością także czas².

W rezultacie, jak pisze Ch. Anderson, umiejętność przechwytywania, składowania i rozumienia wielkich zbiorów danych zmienia naukę, medycynę, biznes, technologię i w konsekwencji kulturę. Ponieważ w epoce rozległych zbiorów danych „więcej” nie znaczy „więcej”, ale „inaczej” - dla każdej osoby i każdej firmy. Największym wyzwaniem ery petabajtów informacji [teraz już zapewne eksabajtów] będzie znalezienie w nich sensu³.

Big Data i nowy sektor poszukiwania sensu w danych

W rezultacie powstaje nowy, potężny i ekscytujący sektor, pomagający biznesowi znajdywać sens (lub raczej - wiele nowych sensów) w wielkich, aktualizowanych zbiorach danych⁴. Pochodzą one z różnorodnych źródeł: m.in. transakcji kupna/sprzedaży, postów w sieciach społecznościowych, sensorów meteorologicznych, cyfrowych zdjęć i plików wideo, sygnałów GPS z telefonów komórkowych, publicznych baz danych. Wszystkie te dane łącznie nazywane są ostatnio zbiorami Big Data⁵. Istotą metodologii Big Data jest przetwarzanie wszystkich tych różnych typów danych równocześnie. Stanie się to główną podstawą przewag i rozwoju firm, powodując nową falę wzrostu produktywności i tworzenia nowych wartości dla klientów. McKinsey szacuje, że sprzedawca detaliczny w pełni wykorzystujący możliwości, które ona przyniesie, jest w stanie podnieść marżę o ponad 60 procent⁶.

Charakteryzując zbiory typu Big Data, mówi się zwykle o tzw. „trzech V”:

Volume (ilość): wielkie dane rozpoczynają się od zbiorów petabajtowych,
Variety (różnorodność): odnosi się do wielu różnych typów danych i plików, dla których tradycyjne relacyjne bazy danych są źle dostosowane, np.: pliki dźwiękowe i wideo, dokumenty, dane geolokacyjne, logowania sieciowe, linki tekstowe,
Velocity: szybkość aktualizacji i używania danych niezbędna, by kreować wartość.

McKinsey dodaje do tego jeszcze Veracity (wiarygodność), twierdząc, że 30 proc. menedżerów nie wierzy informacjom, których używa do podejmowania decyzji. Budowanie zaufania do wielkich danych staje się natomiast wyzwaniem, kiedy różnorodność i liczba źródeł rosną⁷.

Pojęcie „wielkiego zbioru” nie odnosi się jednak wyłącznie do ilości zawartych w nim danych. Chodzi raczej o przełamanie dotychczasowych ograniczeń w zakresie ich przetwarzania. Dawniej istniała fundamentalna sprzeczność między trzema wymaganiami przetwarzania danych: szybko, dużo i różnorodnie. Sprostanie im równocześnie było albo niemożliwe technicznie, albo bardzo kosztowne.

W starym modelu, kiedy dane były trudne do zdobycia, a ich przetwarzanie kosztowne, firmy musiały decydować, jakie dane są im potrzebne, czyli ustalać strukturę systemu bazy danych, zanim zaczęły je zbierać. Teraz zbieranie, analiza i składowanie są bardzo tanie. W historii zawsze natomiast było tak, że kiedy powszechność zastępowała rzadkość, to potrzebne były nowe modele biznesowe. Tak było np. z drukiem, silnikami parowymi, elektrycznością, samolotami czy domowymi drukarkami (za chwilę, zapewne, również z drukarkami 3D). Teraz zjawisko to dotyczy również danych. Drastycznie spadający koszt ich zbierania i przetwarzania powoduje, że jesteśmy w stanie rozwiązywać zadania obliczeniowe, które wczoraj nie były ekonomicznie uzasadnione, a nawet wydawały się niemożliwe.

Nadchodzi zatem „rewolucja nieograniczonego przetwarzania danych” (infinite computing) będąca wynikiem trzech trendów: wykładniczego wzrostu mocy obliczeniowych, szerokiego dostępu do nich i dramatycznego spadku ich ceny. Przetwarzanie danych staje się dzisiaj najtańszym zasobem służącym rozwiązywaniu problemów zarządzania. Dzięki skalowalności rozwiązań chmurowych można łączyć moce setek komputerów, aby radzić sobie z wyzwaniami świata niespodzianek.

Przetwarzanie wielkich danych tworzy wartość przez:

czynienie informacji przejrzystymi i dostępnymi z większą częstotliwością,
tworzenie i składowanie większej liczby informacji o transakcjach w formie cyfrowej dla lepszego badania efektywności działań,
tworzenie precyzyjniejszych nisz klienckich i lepiej dopasowanych do nich produktów i usług⁸,
wspomaganie rozwoju następnych generacji produktów i usług,
prowadzenie kontrolowanych eksperymentów.

Rewolucja A/B testing

Doskonałym przykładem kontrolowanego eksperymentu jest tzw. testowanie A/B. Pozwala ono sprawdzać nowe idee w czasie rzeczywistym z pomocą wielkich grup fokusowych. Metoda polega na przekierowaniu części użytkowników strony internetowej, bez ich wiedzy, na jej zmienioną wersję i porównywaniu ich zachowań z zachowaniami użytkowników strony pierwotnej. Jeśli nowa wersja okazuje się lepsza (więcej kliknięć, dłuższe wizyty i większe zakupy), to zastępuje oryginalną, jeśli jest gorsza - znika. Testowanie A/B pozwala zmienić subiektywne, intuicyjne, często niekorzystne decyzje (np. czcionkę, kolor, wybór ilustracji, tekst) w wybory obiektywne, dzięki analizie ogromnej ilości realnych danych. Analizuje się bowiem niekiedy zachowania milionów użytkowników.

W 2012 roku firma Google wprowadziła bezpłatny produkt pod nazwą Analytics Content Experiments, którego funkcją jest sprawdzanie zawartości stron internetowych przez równoczesne jej mierzenie, testowanie i optymalizację. Można dzięki temu badać, w czasie realnym, efektywność każdej z wersji tworzonej strony i ustalać, która jest najlepsza. Giganty internetowe (Amazon, Google, eBay) robiły to już od pewnego czasu, z użyciem wielkich środków. Teraz technologia dostępna jest bezpłatnie i łatwo dla małych i średnich firm. Docelowo możliwa jest pełna automatyzacja procesu dokonywania kolejnych wyborów i optymalizacji - bez udziału człowieka.

Przedstawione rozwiązanie to nie tylko usprawnienie w projektowaniu stron - to również zmiana niektórych ważnych zasad biznesu. W każdym procesie decyzyjnym przychodzi moment, kiedy podejmuje się nieodwracalne decyzje - w tym przypadku dotyczące wyglądu i funkcji strony internetowej. Analiza wielkich zbiorów danych pozwala podejmować takie decyzje w „ostatnim rozsądnym momencie”.

Dane najpierw - pytania później

W nowym modelu, w którym dane są łatwo dostępne, a ich przetwarzanie - tanie, możliwe jest całkowite odwrócenie obowiązującej dotychczas w nauce i biznesie sekwencji: hipoteza - zbieranie danych. W tym „poszukiwaniu bez struktury” buduje się wielkie bazy przez gromadzenie wszystkich dostępnych danych, a następnie dopiero stawia się pytania. Te ostatnie często nawet nie są konieczne. Stosowane obecnie metody pozwalają na analizowanie i przeszukiwanie równocześnie wielu różnych jakościowo baz danych w poszukiwaniu niespodziewanych korelacji. Nie potrzebujemy wyraźnie sformułowanej hipotezy do badania - możemy poczekać na jej pojawienie się później⁹. W samoaktualizującym się świecie szóstej fali rewolucji komputerowej i internetu obiektów zmieni to nasz sposób uczenia się. Będziemy mogli dokonywać predykcji bez wcześniejszego budowania modeli i tworzenia teorii.

Dobrym przykładem jest tu metoda stosowana przez Google¹⁰. Kiedy popełniamy błąd ortograficzny przy wpisywaniu w wyszukiwarkę, algorytm proponuje słowo, które najczęściej okazuje się właściwe. Jak to się dzieje? Google nie używa do tego celu słowników ani nie zna reguł pisowni. W każdym takim przypadku sięga on do przechowywanych na swoich serwerach zapisów odpowiedzi na pytanie o intencje, jakich udzielali w przeszłości użytkownicy popełniający identyczny błąd, po czym sugeruje to słowo, które uzyskało statystycznie najczęstszą akceptację. Tej samej metody używa Google do tłumaczenia tekstów, szukając po prostu na swoich serwerach wykonanego już kiedyś przez kogoś tłumaczenia konkretnego zdania. Google „wytrenował” na przykład swój francusko-angielski automat tłumaczeniowy poprzez załadowanie do niego kanadyjskich dokumentów, które zwykle publikowane są równocześnie w obu językach. Żadna z osób pracujących nad chińskim programem translacyjnym nie mówiła po chińsku. Nie było też żadnej teorii języka chińskiego - tylko dane¹¹.

Są to klasyczne przypadki używania mechanizmu zwanego „uczącą się maszyną” - automatycznego systemu, który potrafi się doskonalić przez gromadzenie doświadczeń (danych) i nabywać na tej podstawie wiedzę. W epoce Big Data mechanizm uczącej się maszyny stanie się głównym składnikiem modeli biznesowych, pozwalając firmom nadążać za zmieniającymi się warunkami rynkowymi i zachowaniami klientów oraz wyszukiwać nowe, rodzące się trendy.

Zasoby firmy jako informacje

W wyniku szóstej fali rewolucji komputerowej zasoby firmy stają się elementami jej systemu informacyjnego ze zdolnością do zbierania i przetwarzania danych, komunikowania się i kooperowania (współpracy) z innymi obiektami, a nawet adaptacji i automatycznego reagowania na zmiany w ich otoczeniu. Te „inteligentne” zasoby poprawią jakość procesów, nadadzą produktom nowe własności i stworzą nowe modele biznesowe. Przedsiębiorstwo staje się „pełnoetatowym” laboratorium analizy danych. Cel to analiza każdej transakcji i wszystkich wniosków z interakcji klientów, aby maksymalnie skrócić czas oczekiwania na dane z terenu i móc podejmować decyzje w czasie realnym.

Kilka przykładów:

Capital One Bank wdraża metody segmentacji milionów właścicieli kart kredytowych w celu dostosowywania produktów do indywidualnych profili ryzyka.
Tesco w Anglii dokonuje codziennej analizy danych o transakcjach z użyciem 10 mln swoich kart lojalnościowych - dla lepszej promocji w specyficznych segmentach klienckich.
Amerykańska sieć sprzedaży warzyw i owoców Fresh Direct jest w stanie codziennie (niekiedy nawet częściej) dokonywać automatycznej regulacji cen i uruchamiać nowe promocje w oparciu o dane o transakcjach online, wizytach klientów na stronie internetowej i w działach obsługi klienta.
Ford, Pepsi oraz Southwest Air śledzą wpisy na Facebooku i Twitterze, by natychmiast reagować na zmiany postaw klientów wobec firm i produktów.
Główne angielskie sieci supermarketów przewidują, jak pogoda wpływa na zakupy klientów i dostosowują do tego dostawy (amerykański Wal-Mart robi to już od dawna).
Biura podróży używają analizy danych do ustalania polityki cen i strategii marketingowych dla pakietów wakacyjnych.
Zarządcy nieruchomości testują modele matematyczne, aby zrozumieć trendy w popycie na powierzchnie biurowe.
Farecast, narzędzie powiązane z wyszukiwarką Microsoft Bing, radzi klientom, kiedy najlepiej kupić bilet samolotowy, analizując w przypadku każdego zapytania do 225 mld danych o lotach i cenach. Ta sama metoda stosowana jest do rezerwacji pokoi hotelowych i samochodów.
Analiza wielkich zbiorów danych doprowadziła do wykrycia procederu ustawiania meczów w japońskim sumo i oszustw agentów totalizatora w USA.
Firmy ubezpieczeniowe zaczynają testować umieszczane w samochodach sensory monitorujące styl jazdy klienta i umożliwiające odpowiednie kalkulowanie stawek. Specjalizowane sensory mogą być zresztą zastąpione przez znacznie prostsze w zastosowaniu dane z klienckich smartfonów, których zaawansowane modele posiadają GPS, akcelerometry i czujniki położenia.

Jedna z niemieckich firm telefonii mobilnej ogłosiła w 2013 roku, że posiada aplikacje pozwalające badać, czy użytkownicy telefonów przestrzegają przepisów drogowych. Operator telefoniczny dysponuje dziś zresztą gigantycznymi, aktualizującymi się automatycznie bazami danych o wszelkich aspektach życia swoich klientów: miejscu pobytu, trasach i metodach przemieszczania się, przyjaciołach, rodzinie, zainteresowaniach, wzorcach zachowań. Sprzedawanie tych (odpersonalizowanych) wzorców marketerom i przewidywanie trendów będzie zapewne stałym elementem modelu biznesowego firm telekomunikacyjnych. Staną się one wtedy częścią wspomnianego wyżej nowego sektora przedsiębiorstw zajmujących się „znajdywaniem sensu” w czasie realnym w wielkich zbiorach danych o zachowaniach klientów¹².

W konsekwencji tych zjawisk nastąpi więc radykalna transformacja sfery badań, innowacji i marketingu w firmach. Rozwinie się też nowy, wielki obszar doradztwa i usług w zakresie przetwarzania danych o rynku i zachowaniach klientów.

Facebook i jego modele predykcyjne: przykład zastosowań analizy wielkich, zróżnicowanych zbiorów danych w czasie realnym

Gdyby Facebook był krajem, z miliardem użytkowników stanowiłby trzecie co do wielkości państwo na świecie. Pokonałby też dowolny przeszły lub obecny rząd w zakresie drobiazgowego rejestrowania życia swoich obywateli: prywatne rozmowy, zdjęcia, trasy podróży, narodziny dzieci, śluby, przyjaźnie, lektury, poglądy, hobby, śmierć - informacje o tym wszystkim znajdują się w jego zasobach. Facebook zgromadził największą w historii bazę danych o ludzkich zachowaniach. Teraz, w nieustającym poszukiwaniu trwałego modelu biznesowego uniezależniającego firmę od niepewnych przychodów z reklam, zaczyna eksperymentować z wykorzystaniem tych danych z użyciem metod Big Data¹³.

W roku 2011 Facebook stworzył zespół Data Science. Jego członkowie, specjaliści z zakresu socjologii, psychologii społecznej i IT, wykorzystują modele matematyczne, programowanie i nauki społeczne do poszukiwania wzorców ludzkich zachowań i przewidywania zachowań klientów, aby następnie sprzedawać je marketerom. W roku 2012 stworzono np. listę utworów muzycznych najpopularniejszych wśród osób, które ostatnio weszły w związki lub je zerwały. Pozwala to Facebookowi przewidywać, na jakie reklamy mogą oni być otwarci w danym momencie. Być może ludzie, którzy właśnie rozstali się z parterami, zainteresują się płytą z balladami, lub jakaś firma nie będzie chciała kojarzyć się z wielkimi emocjami związanymi na przykład ze śmiercią przyjaciela. Cameron Marlow z Data Science Team mówi: Trudno przewidzieć, w jakim kierunku to pójdzie, bo jesteśmy na wstępnym etapie nauki. Liczba potencjalnych pytań, jakie możemy postawić danym z Facebooka, jest nadzwyczajna¹⁴.

Dotychczas badacze społeczni i analitycy rynku mieli do dyspozycji dość prymitywne metody badawcze: badania surveyowe lub grupy fokusowe, które ze względu na ograniczenia finansowe i organizacyjne były drastycznie limitowane co do wielkości, a więc także wiarygodności. To dlatego na przykład społeczeństwo polskie - ok. 38 mln osób - jest badane na próbie losowej ok. 1100-osobowej. Teraz, po raz pierwszy w historii, badacze społeczni i firmy mają metodologię i możliwości techniczne pozwalające prowadzić bezprecedensowe eksperymenty na wielomilionowych próbach badawczych - praktycznie w czasie realnym - które rewolucjonizują naukę i biznes. Badacze będą w stanie zrozumieć zachowania ludzi na poziomie populacji, a nie tylko jednostki, oraz odpowiadać na fascynujące i ważne dla nich pytania:

W jaki dokładnie sposób jedne idee, przekonania lub mody upowszechniają się wirusowo, a innym się to nie udaje? Gdzie są główne węzły decydujące o powodzeniu lub zatrzymaniu idei?
W jakim stopniu nasze przyszłe działania są produktem wcześniejszych kontaktów z przyjaciółmi?

Dobrego przykładu skali tej zmiany dostarcza kontynuacja słynnego badania z 1961 r. wspierającego tezę Węgra Frigyesa Karinthyego dotyczącą „szcześciu stopni oddalenia” pomiędzy każdymi dwiema osobami na ziemi. Badanie Michaela Gurevicha przeprowadzono na mikroskopijnej jak na jego cele kilkusetosobowej próbie. W Facebookowej jego wersji przeprowadzonej w 2011 r. próba obejmowała natomiast wszystkich uczestników tej społeczności, czyli 10 proc. światowej populacji. Przeanalizowano 69 mld połączeń między 721 mln ludzi. Rezultat: świat (Facebooka) jest mniejszy niż można sądzić - każde dwie osoby dzielą tylko cztery „stopnie oddalenia”. Zatem każda osoba w tym świecie jest przyjacielem przyjaciela naszego przyjaciela.

O innej metodzie utylitarnych badań na wielkich próbach ludzkich pisano w „The Economist” w artykule Od sprzedaży detalicznej do antyterroryzmu - umiejętność analizowania powiązań społecznych okazuje się coraz bardziej użyteczna. Gazeta przewiduje, że następnym krokiem po mapowaniu relacji między jednostkami będzie mapowanie sieci wpływów między większymi segmentami społeczeństwa: np. przewidywanie wojen, konfliktów, kryzysów, wędrówki idei¹⁵.

Mierzenie szczęścia narodowego w czasie realnym

Martin Seligman w swojej książce Fluorish: A Visionary New Understanding of Happiness and Wellness pisze: Dobrobyt ma swoje słownictwo: będziemy w stanie mierzyć dobrobyt na planecie w czasie realnym przez czytanie zdepersonalizowanych maili i liczenie słów i fraz związanych z dobrobytem i niepowodzeniem¹⁶. Możliwości takich dostarcza obecnie metodologia Big Data stosowana w dziedzinie badań zwanej infodemiologią.

Facebook jest w stanie badać szczęście narodowe, wykorzystując do tego celu analizę słów i fraz używanych przez społeczność, które sygnalizują pozytywne i negatywne emocje. Fluktuacje tego wskaźnika pokazują, że jest wiarygodny: jego wartość podnosi się podczas świąt i spada, kiedy w kraju dzieje się coś złego. Na przykład po wielkim trzęsieniu ziemi w Chile w 2010 r. wskaźnik obniżył się w tym kraju znacząco i wzrósł dopiero po paru miesiącach. Analiza danych z Facebooka może stanowić tanią i dokładną metodę śledzenia trendów społecznych na użytek ekonomistów i biznesu.

Infodemiologia wsparta wielkimi zbiorami służy też przewidywaniu przyszłości na podstawie obserwacji wpisów na Twitterze. W 2010 r. laboratorium Hewlett Packard przeanalizowało uczucia dotyczące 24 nowych filmów wyrażane przed ich premierą w 3 mln tweetów i perfekcyjnie (98 proc. sprawdzalności) przewidziało wyniki kasowe w pierwszym weekendzie dystrybucji. W 2010 r. zespół z Indiana University sklasyfikował ok. 10 mln wpisów zamieszczonych od roku 2008 w serwisie Twitter według sześciu kategorii (happiness, kindness, alertness, sureness, vitality, calmness) i stwierdził, że można na ich podstawie przewidywać zmiany na Dow Jones Industrial Average.

Zbiory „informacji o stanie ludzkiego świata” dostępne dla analityki prognostycznej będą rosnąć lawinowo i zyskiwać coraz większe znaczenie. Prezes Google Eric Schmidt mówi: Jest wiele rzeczy, które Google mógłby robić, ale których postanowiliśmy nie robić. Pewnego dnia podczas dyskusji doszliśmy do przekonania, że [na podstawie haseł wpisywanych do wyszukiwarki] moglibyśmy spróbować przewidywać zachowania giełdy. Ale zaraz stwierdziliśmy, że to byłoby nielegalne. Więc przestaliśmy to robić¹⁷.

Facebook przeprowadził w 2012 r. badanie tzw. efektu echa, tj. „wzmacniania” zasłyszanych wiadomości i opinii. Próba liczyła 250 mln użytkowników. W ciągu siedmiu tygodni zarejestrowano 76 mln linków między nimi. Następnie w 219 mln losowo wybranych przypadków Facebook zablokował części z użytkowników możliwość zobaczenia linku, którym dzielił się ich przyjaciel. To stworzyło grupę kontrolną, pozwalając oszacować, jak często ludzie promują te same linki, ponieważ mają takie same źródła informacji i zainteresowania. Wnioski były następujące: nasi bliscy przyjaciele silnie wpływają na to, jakimi informacjami się dzielimy, ale ich oddziaływanie jest osłabiane przez kolektywny wpływ licznych „słabych” kontaktów. To zróżnicowany zespół naszych słabych kontaktów w największym stopniu decyduje o informacjach, na jakie jesteśmy wrażliwi¹⁸.

Dlatego warto przyjrzeć się temu, jak Facebook radzi sobie z gigantycznymi zbiorami informacji w systemach open source. Technologie tworzone przez Facebooka nie tylko pokazują potencjalne kierunki rozwoju, ale mogą stać się produktem samym w sobie. Dotychczas duże firmy płaciły firmom zewnętrznym (np. Oracle) za analizę i przechowywanie danych. Używano do tego celu open-sourceowgo oprogramowania Apache Hadoop wspierającego przetwarzanie wielkich, rozproszonych zbiorów danych, które pozwala aplikacjom pracować z tysiącami niezależnych komputerów i petabajtami danych. Jednak Hadoop wymaga specjalistycznego programowania, zatem Facebook stworzył Hive - oprogramowanie open source ułatwiające używanie Hadoopa. Pracuje ono na losowych próbach całych baz danych, zmniejszając dzięki temu zapotrzebowanie na moce obliczeniowe, i może być używane na zasadach open licence.

Podsumowanie

Wyłania się nowe fundamentalne zadanie firm, które dysponują wielkimi zbiorami danych: poszukiwanie w nich nowych sensów i niespodziewanych korelacji. Wygrają ci, którzy wcześniej niż inni dostrzegą tę nową, zaczynającą się dopiero pojawiać szansę - na wszystkich poziomach gospodarki. We wpisie na forum pisma „The Economist” z 2011 roku Hal Varian, główny ekonomista Google stwierdza: W ubiegłym roku firma Google przeprowadziła około 6000 eksperymentów i w oparciu o nie wdrożyła około 500 usprawnień. Ogłoszeniowa część biznesu zrobiła taką samą liczbę eksperymentów i zmian. Kiedykolwiek używasz Google, jesteś w wielu badawczych i kontrolnych grupach. Wnioski z tych eksperymentów są aplikowane w (naszej) produkcji i system nieustannie się doskonali. Czyż nie byłoby wspaniale, gdybyśmy mogli zrobić to samo w ekonomii!?¹⁹.

Rodzi się rynek zewnętrznych dostawców rozwiązań Big Data, do których należy np. amerykańska firma Factual. Sprzedaje ona dostęp do wielkich, troskliwie rozwijanych zbiorów danych - od informacji o restauracjach po indeksy BMI celebrytów - pobieranych ze źródeł publicznych lub kupowanych. Factual „czyści” te zbiory i sprzedaje do użytku przez modele predykcyjne budowane przez firmy-klientów dla tworzenia nowych aplikacji lub usług. Facebook używa np. informacji z Factual dotyczących lokalizacji firm.

Nadchodzi niedobór talentów w branży Big Data, co gorliwie powinny zauważyć szkoły biznesu. Szacuje się, że do roku 2018 tylko w USA będzie brakować 140-190 tys. pracowników z umiejętnościami analitycznymi, a także 1,5 mln menedżerów i analityków znających się na zastosowaniu wielkich zbiorów danych w biznesie. Upowszechnienie metodologii Big Data oznaczać będzie też zmierzch tzw. „zasady HiPPO” w procesach decyzyjnych. Dotychczas przeważała tu opinia najwyżej opłacanego pracownika (HiPPO - highest-paid persons opinion) - niebawem „decydować” będą również dane z analiz wielkich zbiorów danych w czasie realnym i oparte na nich algorytmy prognostyczne.

Szósta fala rewolucji komputerowej - internet obiektów, tanie pamięci masowe i malejące koszty przetwarzania danych - uruchamiają nową biznesową gorączkę złota. Hal Varian: Dane są dostępne wszędzie - rzadka jest umiejętność wydobywania z nich wiedzy²⁰. DJ Patil, twórca trudnego do przetłumaczenia terminu „data scientist” („naukowiec od danych”?) twierdzi, że osoby takie są nowymi gwiazdami rocka²¹. Firmy będą musiały zacząć tworzyć nowe, kluczowe stanowisko: Chief Information Officer (CIO) wymagające połączonych, unikalnych kwalifikacji programisty, statystyka, „opowiadacza historii” i artysty.

Informacje o autorze

Komentarze

Przypisy

₁ M. Copeland, O. Malik, How to Ride the Fifth Wave, „Business 2.0” 2005, t. 6, nr 6.

₂ Czas staje się bowiem ważnym elementem otoczenia organizacji. W erze industrialnego time management, kiedy praca polegała na powtarzaniu czynności, robotnicy i kierownicy byli niejako „zanurzeni w czasie”, w którym przyszłość „poruszała się” w ich kierunku. W nowej gospodarce firmy i ludzie są coraz powszechniej poddawani efektom tofflerowskiego szoku przyszłości, czyli „otępiającej dezorientacji spowodowanej przedwczesnym przybyciem przyszłości”. Czas w tej nowej erze nie jest już „jednokierunkową ulicą”, którą poruszamy się w kierunku przyszłości. A zatem dzisiaj „pieniądz to czas”, a nie „czas to pieniądz”, jak zauważył kiedyś Ch. Handy.

₃ Ch. Anderson, The End of Theory, www.wired.com/scien.... [07.06.2013].

₄ Np. firma Wolfram Alpha Pro pomaga szukać niespodziewanych korelacji w złożonych bazach danych swoich klientów i wizualizować otrzymane wyniki.

₅ Ocenia się, że każdego dnia powstaje dzisiaj 2,5 eksabajta nowych informacji, co oznacza, że 90 proc. wszystkich danych na świecie zostało stworzonych w ostatnich 2 latach.

₆ Zob. Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, maj 2011.

₇ Tamże.

₈ Np. na podstawie danych z sensorów umieszczonych na produktach producenci mogą oferować lepszą obsługę posprzedażną i prewencyjną.

₉ Paradoksalnie być może dopiero taki proces jest prawdziwym badaniem. A. Einstein powiedział kiedyś, że gdybyśmy wiedzieli, co robimy (w znaczeniu - czego szukamy), to nie byłoby to badanie.

₁₀ Zob. Ch. Anderson, dz.cyt.

₁₁ Tamże.

₁₂ Prawdopodobnie nie udałoby się zburzyć muru berlińskiego, gdyby niemiecka Stasi miała wtedy dostęp do takich danych telefonicznych, jakimi dysponują dzisiaj firmy i rządy.

₁₃ Opisane tu przykłady są oparte na artykule: T. Simonite, What Facebook knows, „MIT Technology Review” 2012, czerwiec.

₁₄ Tamże.

₁₅ Zob. Mining social networks. Untangling the social web: From retailing to counterterrorism, the ability to analyse social connections is proving increasingly useful, „The Economist” 2012, 4-10 października.

₁₆ M.E.P. Seligman, Flourish: A Visionary New Understanding of Happiness and Well-being, Atria Books, 2012.

₁₇ Zob. J. Paczkowski, Schmidt: Dont Like Google Street View Photographing Your House? Then Move, „AllThingsD” 2010, 25 października.

₁₈ Zob. T. Simonite, dz.cyt.

₁₉ H. Varian, w odpowiedzi na pytanie „The Economist”: Are randomised trials the future of economics? (Czy randomizowane testy są przyszłością ekonomii?), „The Economist”, Forum: Economics - by Invitation, 27.04.2011.

₂₀ Zob.: H. Varian, Statistics - Dream Job of the next decade, Presentation to the 2008 Almaden Institute - „ with Information”.

₂₁ DJ Patil, Building Data Science Teams [Kindle Edition], Radar, 2011.