E-mentor nr 4 (36) / 2010

Spis treści artykułu

Informacje o autorze

Karolina Żernicka

Przypisy

¹ Por. The Size of the World Wide Web, http://www.worldwidewebsize.com, [30.07.2010].

² J. Alpert, N. Hajaj, We knew the web was big…, The official Google Blog, http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html, [30.07.2010].

³ D. Spark, Real-Time Search and Discovery of the Social Web, http://www.scribd.com/doc/23804641/Real-time-Search-and-Discovery-of-the-Social-Web, [30.07.2010].

⁴ Discover what's happening right now, anywhere in the world, http://twitter.com, [30.07.2010].

⁵ Za: T. Peggs, The Inner Workings of a Realtime Search Engine, http://blog.oneriot.com/content/2009/06/the-inner-workings-of-a-realtime-search-engine, [30.07.2010].

⁶ Indeksowane były jedynie wpisy na blogach, ale w wynikach wyszukiwania pojawiały się z pewnym opóźnieniem.

⁷ B.J. Jansen, Real Time Search User Behavior, http://ist.psu.edu/faculty_pages/jjansen/academic/jansen_real_time_search.pdf, [30.07.2010].

⁸ Np. twórcy wyszukiwarki OneRiot podają, że zaindeksowanie zawartości strony trwa nie dłużej niż 0,8 sekundy. Za: T. Peggs, The Inner Workings…, dz.cyt.

⁹ Np. portal ReadWriteWeb opublikował listę 100 serwisów wykorzystujących elementy wyszukiwania w czasie rzeczywistym na stronie: http://www.readwriteweb.com/archives/top_100_real-time_web_companies.php [30.07.2010].

¹⁰ Collecta, http://collecta.com, [30.07.2010].

¹¹ OneRiot, http://www.oneriot.com, [30.07.2010].

¹² CrowdEye, http://www.crowdeye.com, [30.07.2010].

¹³ L. Krakowiak, Wyszukiwanie w czasie rzeczywistym w Google, http://www.pcworld.pl/news/353536/Wyszukiwanie.w.czasie.rzeczywistym.w.Google.html, [30.07.2010].

¹⁴ M. Kosedowski, Wyszukiwanie w czasie rzeczywistym, http://www.pcworld.pl/news/355741/Wyszukiwanie.w.czasie.rzeczywistym.html, [30.07.2010].

¹⁵ B.J. Jansen, dz.cyt.

¹⁶ M. Kosedowski, dz.cyt.

¹⁷ Por. M. Kosedowski, dz. cyt.; D. Geer, Is It Really Time for Real-Time Search?, „Computer”, t. 43, nr. 3, s. 16-19.

¹⁸ 10 Emerging Technologies 2010, http://www.technologyreview.com/tr10, [30.07.2010].

Wyszukiwanie w czasie rzeczywistym - przyszłość internetu?

Karolina Żernicka

Trendy w edukacji

Wprowadzenie

Pojawienie się tzw. internetu społecznościowego stawia nowe wyzwania przed wyszukiwarkami internetowymi, które muszą sprostać rosnącemu zainteresowaniu użytkowników wydarzeniami rozgrywającymi się w przeciągu ostatnich godzin czy minut. Odpowiedzią na to zapotrzebowanie może stać się technologia wyszukiwania w czasie rzeczywistym, która - obok wyników tradycyjnego wyszukiwania - daje możliwość śledzenia na bieżąco strumienia treści generowanych przez użytkowników tysięcy serwisów społecznościowych. Nie trzeba nikogo przekonywać, że zasoby internetu rosną w ogromnym tempie. Trudno ocenić wielkość sieci - ale na pewno można mówić o miliardach istniejących stron. Według szacunków największych wyszukiwarek internetowych, minimalna liczba zaindeksowanych stron to ponad 23 miliardy¹, ale już w roku 2008 koncern Google ogłosił, że jego wyszukiwarka zidentyfikowała aż trylion unikalnych adresów URL².

Dynamiczne rozrastanie się zasobów globalnej sieci przyspieszyło pojawienie się tzw. internetu społecznościowego (social web) - rodzaju interaktywnych stron WWW, współtworzonych przez użytkowników mających wspólne zainteresowania lub chcących poznać zainteresowania innych oraz zaprezentować się w sieci. W ramach licznych serwisów społecznościowych, takich jak Facebook, MySpace, Nasza-Klasa, Flickr czy Twitter, oraz niezliczonych blogów i list dyskusyjnych nieustannie trwa wymiana opinii i poglądów, użytkownicy dzielą się swoimi zasobami, na bieżąco komentują najnowsze wiadomości, spontanicznie reagują na aktualne wydarzenia. Ocenia się, że użytkownicy ery Web 2.0 generują ponad 230 milionów różnego rodzaju treści dziennie³. Sieć społecznościowa żyje tym, co dzieje się „tu i teraz”, co trafnie oddaje motto serwisu Twitter: Odkryj, co dzieje się w tej chwili, gdziekolwiek na świecie⁴.

Ogromna ilość treści generowanych na bieżąco przez użytkowników (real-time content), takich jak pliki dźwiękowe i filmowe, zdjęcia, wpisy na blogach, komentarze na forach, polecane zakładki do stron, aktualizacje statusu w osobistym profilu na portalu społecznościowym, a także treści dodawanych przez profesjonalne serwisy (np. najświeższe wiadomości), staje się nie lada wyzwaniem dla wyszukiwarek internetowych. Szacuje się, że wśród ogółu zapytań wyszukiwawczych ok. 40 proc. stanowią zapytania o dane faktograficzne nieulegające szybkiej dezaktualizacji i zaspokajające konkretną potrzebę informacyjną użytkownika (np. artykuły naukowe, teksty edukacyjne czy instruktażowe), ok. 20 proc. to zapytania mające na celu dotarcie do konkretnej strony internetowej (tzw. zapytania nawigacyjne), natomiast pozostałe 40 proc. - zapytania dotyczące wydarzeń i zjawisk, które miały miejsce w przeciągu ostatnich dni, godzin lub minut⁵. Ten rodzaj aktywności wyszukiwawczej w internecie nazywany jest wyszukiwaniem w czasie rzeczywistym (real-time search).

Wyszukiwanie tradycyjne a wyszukiwanie w czasie rzeczywistym

Tradycyjne wyszukiwarki internetowe, takie jak Google, Yahoo czy Bing, opierają swoje działanie na oprogramowaniu zwanym robotami internetowymi (także: botami lub pająkami internetowymi - Web crawlers, Web spiders), których zadaniem jest zbieranie informacji o strukturze stron w sieci. W tym celu regularnie przeszukują one zasoby internetu, rejestrując powstanie nowych stron oraz monitorując zmiany na stronach zaindeksowanych wcześniej, a następnie dodają te informacje do indeksu wyszukiwarki. Częstotliwość, z jaką roboty przemierzają sieć jest różna - strony uznane za ważne (np. najpopularniejsze portale internetowe) skanowane są co kilka minut, inne strony mogą być odwiedzane raz na kilka dni, a nawet tygodni. Taki sposób działania tradycyjnych wyszukiwarek sprawia, że prezentowane wyniki wyszukiwania charakteryzują się często sporym opóźnieniem w stosunku do rzeczywistej, aktualnej struktury internetu. Można powiedzieć, że mają one charakter historyczny, odzwierciedlający stan sieci w momencie, gdy ostatnio była skanowana przez roboty.

Ponieważ tradycyjne wyszukiwanie jest czasochłonne i rozciągnięte w czasie, do niedawna całkowicie pomijało treści generowane przez ruch społecznościowy - roboty internetowe nie nadążały bowiem z rejestrowaniem na bieżąco tego ciągłego „strumienia myśli”. Mechanizmy działania wyszukiwarek sprawiały, że szansę na zaistnienie w wynikach wyszukiwania miały jedynie zasoby o charakterze na tyle statycznym, że zostały zarejestrowane przez wędrujące po sieci roboty. Natomiast efemeryczna z natury sfera aktywności społecznościowej pozostawała dla wyszukującego w większości niewidoczna⁶.

Ostatnie lata przyniosły jednak znaczny postęp w technologii wyszukiwania w czasie rzeczywistym. Największe firmy na rynku wyszukiwarek zdały sobie sprawę, że popyt na tego typu usługi będzie rosnąć wraz z rozwojem internetu społecznościowego. Dostrzeżono zmianę w sposobie korzystania z sieci - kiedyś użytkownik po prostu wędrował z jednej strony na kolejną, obecnie chce śledzić na bieżąco strumienie danych płynące z serwisów społecznościowych. Pozostawanie online przez niemal całą dobę stało się niezwykle łatwe dzięki wszelkiego rodzaju urządzeniom mobilnym, np. nowoczesnym telefonom komórkowym.

Zasada wyszukiwania w czasie rzeczywistym jest w pewnym sensie odwrotnością dotychczasowego schematu. W tradycyjnych wyszukiwarkach roboty automatycznie pobierają informacje o treści stron, tworząc ich bazę (indeks), która wykorzystywana jest do wygenerowania listy wyników w momencie wprowadzenia przez użytkownika zapytania. W wyszukiwaniu typu real-time nie istnieje baza hiperłączy - silnik wyszukiwarki po otrzymaniu zapytania wysyła je do wybranej grupy serwisów społecznościowych, a następnie łączy otrzymane odpowiedzi w jedną listę wynikową. Dopóki zapytanie wyszukiwawcze jest aktywne, strumień treści w miarę napływania nowych informacji jest stale aktualizowany. W przeciwieństwie do wyszukiwarek tradycyjnych nie ma tu statycznej listy wyników⁷.

W wyszukiwarkach internetowych wyniki prezentowane są w oparciu o określony algorytm wyszukiwawczy - określający kryteria, na bazie których dokonywane jest wyszukiwanie oraz decydujący o kolejności odnośników w rankingu wyników. Najczęściej stosowany obecnie algorytm - PageRank, opracowany przez koncern Google (i stopniowo zapożyczany przez inne wyszukiwarki), szereguje znalezione strony internetowe według ich popularności (tj. liczby prowadzących do nich linków zewnętrznych), nadając im określoną wartość liczbową. W uproszczeniu można powiedzieć, że wartościowa strona to taka, do której prowadzi wiele odnośników z innych stron (również wysoko notowanych). Tymczasem wyszukiwanie typu real-time opiera się na założeniu, że użytkownicy internetu potrafią lepiej niż zautomatyzowany mechanizm „wydobywać” z sieci to, co najważniejsze. Podstawą wyszukiwania są linki rekomendowane przez internautów za pomocą wszelkiego rodzaju serwisów społecznościowych, takich jak Twitter, Facebook czy Delicious. Wyszukiwarka podąża za linkami i indeksuje treść stron, do których prowadzą, a następnie ustala kolejność wyników. Cały proces odbywa się w ciągu ułamka sekundy, w zasadzie w czasie rzeczywistym⁸.

Przy ustalaniu kolejności wyników algorytm wyszukiwawczy uwzględnia stopień tzw. relewancji społecznościowej (social relevance rank), na którą składają się: czas wygenerowania treści (nowe treści uznawane są za bardziej relewantne niż starsze), wiarygodność źródła (preferowane są strony o dużej bieżącej popularności), reputacja użytkownika (za wiarygodnych uznaje się tych, którzy są cytowani przez dużą liczbę innych użytkowników) oraz wahania popularności odnośnika w czasie (wyżej cenione są odnośniki, których popularność rośnie). Dzięki algorytmom wyszukiwania w czasie rzeczywistym wyniki odzwierciedlają to, co faktycznie dzieje się na świecie w obecnej chwili, w ostatnich godzinach czy minutach. Tradycyjnym wyszukiwarkom zaprezentowanie najbardziej aktualnych wydarzeń zajmuje o wiele więcej czasu.

Popularne narzędzia do wyszukiwania w czasie rzeczywistym

Dynamiczny rozwój wyszukiwania w czasie rzeczywistym nastąpił w ostatnich dwóch latach, kiedy to zaczęło powstawać wiele narzędzi nakierowanych na przeszukiwanie internetu społecznościowego. W chwili obecnej można mówić na pewno o dziesiątkach serwisów wykorzystujących technologię real-time search⁹. Najbardziej popularne wyszukiwarki specjalizujące się w treściach społecznościowych (wszystkie działają na razie w wersji beta) to m.in.:

Collecta¹⁰ - agregująca różnego typu treści z ponad 10 milionów źródeł (m.in. Twitter, Flickr, MySpace, CNN, Reuters) uruchomiona w czerwcu 2009 r.;
OneRiot¹¹ - pobierająca około miliona informacji dziennie z partnerskich witryn społecznościowych, takich jak Facebook, MySpace, Twitter czy Digg; powstała w listopadzie 2008 r.;
CrowdEye¹² - agregująca treści pochodzące z serwisu mikroblogowego Twitter z ostatnich 14 dni - uruchomiona w czerwcu 2009 roku.

Również tradycyjne wyszukiwarki wprowadzają stopniowo technologie czasu rzeczywistego do swoich rezultatów wyszukiwania. W wyszukiwarce Google do standardowych wyników wprowadzono np. także te dodawane w czasie rzeczywistym (można je śledzić, wybierając opcję Najnowsze). Operatorzy popularnych serwisów społecznościowych MySpace, Facebook i Twitter zawarli z koncernem porozumienia, na mocy których będą dostarczać do wyszukiwarki informacje oznaczone przez swoich użytkowników jako publicznie dostępne. Wyszukiwanie w czasie rzeczywistym w Google nie ograniczy się jednak do wymienionych serwisów, ma bowiem objąć inne strony o podobnym charakterze oraz serwisy informacyjne¹³.

Wyzwania dla real-time search

Pomimo dynamicznego rozwoju wyszukiwania w czasie rzeczywistym, technologia ta nadal budzi sporo wątpliwości dotyczących:

jakości informacji - mimo zastosowania filtrów, takich jak popularność użytkownika, wiarygodność źródła czy czas wygenerowania treści, nadal trudno ocenić, czy otrzymane wyniki wyszukiwania rzeczywiście zadowolą bardziej wymagającego internautę;
konieczności przefiltrowania ogromnej liczby różnego rodzaju informacji pochodzących z tysięcy serwisów;
sposobu ustalania wskaźnika relewancji społecznościowej - nie jest pewne, czy przyjęte kryteria pozycjonowania treści faktycznie odzwierciedlają ich wartość informacyjną;
ograniczonego zasięgu przeszukiwania internetu społecznościowego (pod uwagę bierze się tylko treści oznaczone przez nadawcę jako publicznie dostępne);
zagrożenia spamem i obecności reklam.

Z drugiej strony do największych zalet tej technologii zaliczyć można z pewnością dużą aktualność wyników wyszukiwania (liczoną w sekundach czy minutach) oraz wykorzystanie potencjału społeczności użytkowników do „wydobycia” z sieci bieżących informacji.

Przyszłość wyszukiwania w czasie rzeczywistym

Za przyszłość internetu uważano dotychczas wyszukiwanie semantyczne, polegające na przetwarzaniu informacji w sposób adekwatny do ich znaczenia. Oprogramowanie wyszukiwarek miałoby „rozumieć” treści wyrażone w języku naturalnym poprzez powiązanie znaczeń między terminami w ramach odpowiedniego kontekstu. Wydaje się jednak, że droga do efektywnego wyszukiwania semantycznego jest nadal daleka. Tymczasem rozwój sieci społecznościowych sprawił, że znaczenia nabrało wyszukiwanie opierające się na aktywności internautów. Ich użytkownicy są więc wykorzystywani nie tylko do generowania treści, ale także do ich oceny¹⁴.

Ponieważ jest to zjawisko nowe, nie przeprowadzono jeszcze szeroko zakrojonych badań nad zachowaniami użytkowników w tego rodzaju aktywności wyszukiwawczej. Wstępny raport¹⁵, opublikowany w kwietniu 2010 roku, wskazuje, że zapytania różnią się tematycznie od tych zadawanych w tradycyjnych wyszukiwarkach - dominują słowa kluczowe z zakresu nowoczesnych technologii, rozrywki, polityki, znacząco mniej jest np. zapytań o treści o charakterze pornograficznym. Trudno natomiast przewidzieć, czy wyszukiwanie typu real-time będzie miało zastosowanie w nauczaniu - materiały edukacyjne i naukowe nie dezaktualizują się szybko, zatem duża część informacji nie „przeterminuje się”, jeśli zostanie dodana do wyników wyszukiwania po godzinie, a nie po sekundzie¹⁶. W przyszłości można będzie spróbować wykorzystać obecność narzędzi 2.0. na stronach edukacyjnych, aby odnośniki do nich pojawiały się w wynikach wyszukiwania. Na razie jednak w wyszukiwaniu w czasie rzeczywistym dominują treści o charakterze informacyjnym i rozrywkowym. Z pewnością nowa technologia może przynieść także sporo zysków biznesowi, który znajdzie tu nie tylko nowe możliwości zastosowania spersonalizowanej reklamy, ale również narzędzie monitorowania preferencji i zainteresowań potencjalnych klientów.

Wśród ekspertów panuje przekonanie, że wyszukiwanie w czasie rzeczywistym na razie nie zastąpi całkowicie tradycyjnych wyszukiwarek, sprawdzi się natomiast jako uzupełnienie działalności portali informacyjnych i stanowić będzie istotną część aktywności wyszukiwawczej w internecie¹⁷. Stanie się również kolejnym sposobem na personalizację internetu. Znany magazyn „Technology Review” uznał je nawet za jedną z dziesięciu najbardziej obiecujących technologii¹⁸. Prawdopodobnie w najbliższych miesiącach, wraz z pojawieniem się kolejnych badań zachowań użytkowników internetu, będziemy mogli stwierdzić, czy wyszukiwanie w czasie rzeczywistym spełnia pokładane w nim nadzieje.

Bibliografia

D. Geer, Is It Really Time for Real-Time Search?, „Computer”, t. 43, nr. 3.

Netografia

J. Alpert, N. Hajaj, We knew the web was big…, The official Google Blog, http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html.
Collecta, http://collecta.com.
CrowdEye, http://www.crowdeye.com.
Facebook, http://www.facebook.com.
Flickr, http://www.flickr.com.
B.J. Jansen, Real Time Search User Behavior, http://ist.psu.edu/faculty_pages/jjansen/academic/jansen_real_time_search.pdf.
M. Kosedowski, Wyszukiwanie w czasie rzeczywistym, http://www.pcworld.pl/news/355741/Wyszukiwanie.w.czasie.rzeczywistym.html.
L. Krakowiak, Wyszukiwanie w czasie rzeczywistym w Google, http://www.pcworld.pl/news/353536/Wyszukiwanie.w.czasie.rzeczywistym.w.Google.html.
MySpace, http://www.myspace.com.
Nasza-Klasa, http://nk.pl.
OneRiot, http://www.oneriot.com.
T. Peggs, The Inner Workings of a Realtime Search Engine, The Size of the World Wide Web, http://www.worldwidewebsize.com.
D. Spark, Real-Time Search and Discovery of the Social Web, http://www.scribd.com/doc/23804641/Real-time-Search-and-Discovery-of-the-Social-Web.
Twiter, http://twitter.com
Twitter - blog, http://blog.oneriot.com/content/2009/06/the-inner-workings-of-a-realtime-search-engine.
10 Emerging Technologies 2010, http://www.technologyreview.com/tr10.