Kierunki zmian w nauczaniu statystyki online - przykład wykorzystania programu R-CRAN

Tomasz Kopczewski

Statystyka jest jednym z najważniejszych narzędzi wnioskowania o procesach zachodzących w gospodarce. Wraz z rozwojem społeczeństwa informatycznego i ze względu na pojawienie się ogromnych zbiorów danych - Big Data, znaczenie statystyki będzie rosło. Jednocześnie za zmianami tymi musi nadążać przekształcanie nauczania statystyki. W artykule przedstawione zostały doświadczenia z prowadzenia zajęć e-learningowych dotyczących oprogramowania statystycznego R-CRAN1. Artykuł jest próbą odpowiedzi na pytanie: co należy zrobić, aby dostosować nauczanie oprogramowania statystycznego do zmian zachodzących w gospodarce?

Nauczyć obsługi oprogramowania czy teorii statystyki?

Analiza danych gospodarczych w równej mierze opiera się na znajomości statystyki i ekonomii, jak też oprogramowania. Niepożądanym standardem nauczania metod ilościowych jest dzielenie procesu nauczania na trzy niezależne części: teorię, oprogramowanie i praktykę. Niestety rzadko spotka się kursy zawierające jednocześnie wszystkie te komponenty. Omawiany kurs e-learningowy ma być komplementarny do wykładów ze statystyki na poziomie średniozaawansowanym i zaawansowanym, które w dużej mierze koncentrują się na przedstawieniu teorii. W założeniach tego kursu przyjęto, że będzie to nauka oprogramowania statystycznego wraz z przykładami użycia.

Nauka metod statystycznych mieści się w ogólnie rozumianej kategorii stosowanej matematyki i niestety powiela schemat wykładania, który barwnie opisał Paul Lockhart w Lamencie matematyków2. Powszechne w nauczaniu przedmiotów matematycznych jest przyjęcie przez nauczyciela założenia, że poziom wiedzy teoretycznej studentów jest zawsze niewystarczający, aby przejść bezpośrednio do zastosowania danych metod w praktyce. Rozumowanie to powtarza się na każdym etapie, więc student, kończąc naukę, zwykle nie ma szans poznania tych zastosowań. Takie podejście wzmacniane jest również ze względu na niedocenianie matematyki stosowanej w zestawieniu z matematyką teoretyczną3. Istnieje głębokie przekonanie, że na początkowym etapie studiów praca przy pomocy kartki i papieru oraz powtarzanie rachunków są sposobem na bardziej dogłębne zapoznanie się z podstawami. Zaawansowane wykłady to skupienie się na teorii z odłożeniem praktycznych zastosowań na później. Wprawdzie dowody i twierdzenia są podstawą treningu myślenia analitycznego4, ale studia ekonomiczne powinny również pokazywać, jak radzić sobie z realnymi problemami, w których rozwiązywaniu równie ważne jest zastosowanie wiedzy eksperckiej. Stąd też zaleceniami podstawowymi w nauczaniu statystyki na każdym poziomie są: praca z danymi (Working with data), nauka przez praktykę (Learning by doing) oraz nauka przez pisanie (Learning by writing)5.

Nauka oprogramowania również może powielać przedstawiony powyżej schemat - nauczyciele wychodzą z złożenia, że dopiero przekroczenie pewnego progu opanowania oprogramowania pozwala na jego poprawne użycie. W pracy z oprogramowaniem statystycznym trzeba jednak przyjąć krańcowo odmienne założenie: że nie ma takiego progu, a początek nauki powinien być tożsamy z pracą na przykładach. Jest to spełnienie zalecenia Learning by doing, ale musi być to też praca efektywna. Dlatego powinno się zwrócić uwagę również na drugie zalecenie: Working with (real) data. W założeniach omawianego kursu przyjęto, że nauka oprogramowania powinna symulować główne czynności wykonywane w pracy przez statystyków, czyli łączenie zbiorów danych, porządkowanie ich oraz czyszczenie z obserwacji nietypowych lub błędów. W ramach kursu specjalnie wykorzystano duże zbiory danych bez przeprowadzania obróbki wstępnej.

Drugim zaniedbywanym często w nauce oprogramowania statystycznego obszarem jest wizualizacja danych i wyników analiz. Wraz ze zmianą medium publikacji z papierowego na elektroniczne zmienia się sposób podejścia do wizualizacji danych. Coraz częściej jest to proces łączący ze sobą zarówno aspekty interakcji pomiędzy człowiekiem a komputerem, jak i aspekty artystyczne. Nie jest to jedynie dodatek do pracy analitycznej. Sama wizualizacja danych jest częścią procesu poznania przez wyodrębnienie ukrytych w danych informacji. Wizualizacja danych jest drugim ważnym składnikiem kursu.

Oprogramowanie: co, jeżeli nie MS Excel?

Do pewnego momentu wystarczającym narzędziem pracy analityka jest zwykły arkusz kalkulacyjny, jednak w przypadku zagadnień niestandardowych i rozbudowanych jest to narzędzie nieefektywne - pojawia się potrzeba użycia programów dedykowanych. Problemem jest decyzja, czy ma być to oprogramowanie zależne (komercyjne), czy open source. Wykorzystanie oprogramowania zależnego jest kosztowne, także w wersji edukacyjnej. W przypadku kursów e-learningowych istotną kwestią jest jego dostępność dla studentów na prywatnym komputerze.

Przygotowując kurs e-learningowy, zdecydowano się na użycie darmowego programu R-CRAN6, który jest implementacją języka obliczeń statystycznych S. Możliwość wykorzystania rozbudowanych zasobów programistycznych, jak i materiałów do nauki, sprawiła, że właściwie program ten nie ma realnych konkurentów, jeżeli chodzi o oprogramowanie statystyczne dostępne w ramach licencji GNU GPL7. Obecnie jest to jeden z najszybciej rozwijających się projektów open source, który przewyższa pod względem liczby dostępnych bibliotek wszystkie statystyczne programy komercyjne8, stąd też wybór ten należy uznać pod tym względem za udany.

Big data a ekonomia i statystyka

Ekonomia jako nauka przechodzi rewolucyjną zmianę. Zwielokrotnienie dostępnych informacji powoduje, że nie jest to tylko zmiana ilościowa, ale również jakościowa. Ogromne zbiory danych (Big data) niosą ze sobą na tyle duży ładunek informacyjny, że tradycyjne metody analizy danych są wypierane przez metody statystyki obliczeniowej, stanowiącej połączenie metod numerycznych i statystycznych. Dla celów podejmowania decyzji biznesowych tego typu narzędzia dostarcza się jako jeden ze składników hurtowni danych (Online Analytical Processing - OLAP). W badaniach naukowych i zawansowanej analityce rynkowej konieczne jest użycie elastycznego oprogramowania, które pozwala na stworzenie własnych rozbudowanych modeli, zamiast korzystania z gotowych rozwiązań o ograniczonej funkcjonalności. Ta zmiana w sposobie prowadzenia badań statystycznych, zarówno w rozwiązaniach biznesowych i w nauce, jak też w analizach sporządzanych na potrzeby administracji publicznej, tworzyć będzie popyt na statystyków i analityków, którzy będą w stanie zanalizować uzyskane dane. Jako potwierdzenie tej tezy można przytoczyć słowa Hala Variana:

Uważam, że w następnych dziesięciu latach zawód statystyka będzie postrzegany jako seksowny. Choć można pomyśleć, że żartuję - kto kiedyś uznałby, że najseksowniejszym zawodem lat dziewięćdziesiątych będzie informatyk? Umiejętność skorzystania z danych - rozumienia ich, przetwarzania, wyciągania z nich wartości, wizualizowania i sprawozdawania - to będzie jedna z najważniejszych umiejętności następnych dekad, nie tylko wśród profesjonalistów, ale także na poziomie edukacji podstawowej czy średniej. Obecnie mamy naprawdę darmowe i wszechobecne dane. Więc komplementarnym, rzadkim czynnikiem jest umiejętność rozumienia danych i odnajdowania w nich wartości9.

Powyższe lekkie w formie stwierdzenie powinno być traktowane jak najbardziej poważnie, gdyż Hal Varian oprócz tego, że jest autorem jednego z najbardziej popularnych podręczników mikroekonomii, pełni również funkcję głównego ekonomisty firmy Google. Warto zauważyć, że w jego stwierdzeniu jest zawarty również główny problem nauczania statystyki: jak nauczyć jedną osobę kilku odległych mentalnie umiejętności? Prowadzenie zaawansowanych i intensywnych obliczeniowo analiz wymaga posiadania szerokich kompetencji z zakresu statystyki i metod numerycznych. Analiza danych ekonomiczno-społecznych wymaga zrozumienia procesów, których dotyczy - wiedzy, ale też i pewnego rodzaju intuicji. Oddzielnym zagadnieniem jest wizualizacja wyników, dzięki której tworzone analizy będą zrozumiałe dla potencjalnych odbiorców.

Pojawienie się dużych zbiorów danych będzie wymuszało zmianę sposobu pracy statystyków. Po pierwsze, ze względu na rosnące koszty zasobów IT rozwiązaniem optymalnym stało się wynajmowanie mocy obliczeniowych na życzenie. W rezultacie przenosi się oprogramowanie z pojedynczych stanowisk komputerowych do chmury obliczeniowej. Po drugie, dane nie są jednorodne i do ich analizy potrzeba specjalistów, którzy będą pracować jako zespół, korzystając z zasobów chmury obliczeniowej. Po trzecie, analitycy będą musieli współpracować z osobami odpowiedzialnymi za wizualizację uzyskanych wyników i ich publikację przeważnie w środowisku internetowym. Pojawienie się konieczności pracy zespołowej jest dużym wyzwaniem, gdyż obecny sposób nauczania i praktyki badań statystycznych opiera się na wiedzy i umiejętnościach stosowanych indywidualnie.

Zmiany zachodzące w tej profesji mogą promować nauczanie online, gdyż ostatecznie praca analityków będzie miała podobny charakter. Będzie to przeważnie praca zdalna, wykonywana przy pomocy oprogramowania oraz na zbiorach danych znajdujących się w prywatnej lub publicznej chmurze obliczeniowej. Cały proces pozyskania i obróbki danych oraz publikacji wyników będzie miał charakter sieciowy.

Problemem nauczania statystyki w nowym środowisku jest odejście od tradycyjnego sposobu przedstawiania tego typu pracy jako nudnego ślęczenia nad papierowymi rocznikami statystycznymi. Jednak podobnie jak w przypadku informatyków sytuacja ta zaczyna się zmieniać, a wzorem kreatywnego podejścia do statystyki jest Hans Rosling, którego wykłady dotyczące rozwoju ekonomicznego przez lata wygrywały plebiscyty na najbardziej inspirujące wystąpienie w ramach TED talks10.

R w chmurze obliczeniowej oraz jako narzędzie e-learningowe

Potencjał programu R ujawnił się w Polsce i na świecie wraz z nadejściem kryzysu ekonomicznego. Firmy i instytucje publiczne, redukując koszty, nie odnawiały licencji na drogie oprogramowanie zależne. Jednocześnie pojawiła się ogromna liczba powszechnie dostępnych książek i materiałów do nauki R. Te czynniki nie miałyby wpływu na dynamiczny wzrost komercyjnego wykorzystania programu R, gdyby nie wprowadzone przez deweloperów zmiany w samym programie oraz wypracowanie modelu rozwoju łączącego zasady open source z działalnością zarobkową.

Wraz ze wzrostem rynku usług związanych z tym oprogramowaniem nastąpiła zmiana jakościowa w traktowaniu R przez środowisko biznesowe. Przykładem może być firma Intel, która zainwestowała w formie vencure capital w rozwój R jako rdzenia obsługi analityki biznesowej dużych zbiorów danych i platform wieloprocesorowych - Revolution Analytics11. Podobną platformę analityczną stworzyła firma ORACLE12. Ewolucja R jako środowiska obliczeniowego może znacznie ten proces przyspieszyć. Pierwsze próby zastosowania R jako aplikacji serwerowej dostępnej przez internet miały miejsce dosyć wcześnie. Jednak dopiero pojawienie się dwóch niezależnych rozwiązań - interfejsu graficznego RStudio13 oraz środowiska obliczeniowego Elastic-R - może być przełomowym krokiem w rozwoju tego oprogramowania14.

Interfejs graficzny R był jednym z głównych powodów niechęci użytkowników do wykorzystywania tego programu w codziennej pracy. Na zasadzie konkurencji powstało kilka projektów interfejsów graficznych programu15. Można uznać, że w chwili obecnej środowisko graficzne RStudio wygrało tę walkę. Po pierwsze zadecydował o tym model biznesowy. Jest to nadal otwarte oprogramowanie, ale projekt rozwija firma, która na bazie RStudio tworzy kursy i szkolenia oraz wdraża środowisko obliczeniowe R w firmach. Po drugie, jest to nie tylko interfejs graficzny, ale również środowisko obliczeniowe oraz publikacyjne. RStudio może zostać zainstalowane jako serwer i udostępnione z dowolnego miejsca za pośrednictwem przeglądarki internetowej. Dzięki wykorzystaniu dodatkowych pakietów RStudio umożliwia publikację interaktywnych materiałów bezpośrednio na stronie internetowej.

Interaktywność publikacji RStudio wraz z pakietami dodatkowymi jest dosyć duża - zadeklarowany zestaw opcji i suwaków do wyboru umożliwia sterowanie zarówno parametrami wizualizacji, jak i zakresu danych oraz postaci modelu użytego w badaniu. Tego typu aplet jest gotowym narzędziem edukacyjnym. Student, zmieniając parametry, widzi od razu skutek swoich działań (rysunek 1).

Rysunek 1. Przykład publikacji interaktywnej na podstawie RStudio
zobacz podgląd

Źródło: opracowanie własne na podstawie http://glimmer.rstud...

Zmiany w R i dostosowanie się do potrzeb odbiorców spowodowały, że środowisko RStudio jako edytor stron HTML oraz pakiet animation stanowić mogą rozbudowane narzędzia publikacyjne treści w nauczaniu e-learningowym statystyki. Jednak to nie wyczerpuje możliwości R jako programu do tworzenia zasobów e-learningowych. Opracowany w 2012 roku pakiet programu R exams2 tworzy testy oparte na obliczeniach w R, które mogą być bezpośrednio eksportowane do zasobów platformy Moodle16. Jedynym ograniczeniem środowiska obliczeniowego RStudio jest w chwili obecnej brak narzędzi do pracy wspólnej. Dopiero na etapie dalszych prac stworzona zostanie serwerowa wersja RStudio umożliwiająca bezpośrednią współpracę kilku osób. To ograniczenie zostało już rozwiązane w innym środowisku obliczeniowym - Elastic-R - które jest rozwinięciem środowiska BiocepR17. Jest to zaawansowany projekt, który prawdopodobnie będzie dodatkową usługą Amazon Elastic Compute Cloud. W tej chwili przedsięwzięcie znajduje się jeszcze w fazie prób i brakuje dostatecznego wsparcia dla odbiorców indywidualnych, ale jest to projekt wyznaczający zupełnie nowe standardy pracy statystyków. W obliczeniach naukowych i analityce rynkowej można go uznać za odpowiednik Google Docs dla rozwiązań biurowych. Dzięki Elastic-R współpracujący ze sobą statystycy widzą bezpośrednio wyniki swojej pracy i mogą się wzajemnie korygować. Zastosowanie chmury daje możliwość elastycznego wykorzystania mocy obliczeniowej na życzenie oraz sięgania do wielu rozproszonych źródeł danych. W zamierzeniach jego twórcy narzędzie to ma umożliwiać nauczanie e-learningowe metod statystycznych. Przewidywany jest tryb współpracy studenta z nauczycielem. Należy poczekać jednak na wykrystalizowanie się ostatecznej formy tego projektu.

Rysunek 2. Projekt wirtualnego środowiska obliczeniowego Elastic-R
zobacz podgląd

Źródło: Portal Elastic-R, http://www.Elastic-R...

Podsumowanie

Kurs e-learningowy Program R w zastosowaniach ekonomicznych i finansowych powstał niespełna siedem lat temu. Wydawać by się mogło, że w przypadku tak „konserwatywnego” zagadnienia, jakim jest nauka programu statystycznego, w którym głównym sposobem pracy jest korzystanie z konsoli i pisanie skryptów, w tak krótkim czasie - oprócz zwiększenia liczby dostępnych komend - nie mogą pojawić się interesujące innowacje. W niniejszym artykule wskazane zostały zmiany, jakie zachodzą w pracy statystyka wraz z pojawieniem się dużych zbiorów danych. Zmiany w oprogramowaniu zaczynają antycypować tę jakościową i ilościową rewolucję. Kursy statystyki muszą za nimi nadążać. Zdaniem autora zwiększy się nastawienie na pracę grupową, a do katalogu dobrych praktyk nauczania statystyki trzeba będzie włączyć zasadę Working as a team. Większe znaczenie zyska też wizualizacja danych dostosowana do nowego medium publikacyjnego, jakim jest internet. Jest to duże wyzwanie, gdyż do tej pory nie wypracowano jeszcze standardów tworzenia i publikacji wyników analiz statystycznych w sieci. Nadal trwa proces odkrywania nowych możliwości, metod i technik. Autorzy kursu zaczynają prace nad tymi zmianami, a niniejszy artykuł jest pierwszym raportem z tych prac.

Bibliografia

  • P. Biecek, Przewodnik po pakiecie R, Oficyna Wydawnicza GiS, 2008.
  • K. Kopczewska, T. Kopczewski, P. Wójcik, Metody ilościowe w R. Zastosowania ekonomiczne i finansowe, CeDeWu, Warszawa 2009.
  • T. Żylicz, Czy należy uczyć matematyki studentów ekonomii? , [w:] M. Rocki (red.), Jakość kształcenia ekonomicznego, PTE, Warszawa 2009.

Netografia

Informacje o autorze

zobacz podgląd
TOMASZ KOPCZEWSKI

Autor jest pracownikiem Wydziału Nauk Ekonomicznych UW - kierownikiem centrum badawczego Laboratorium Ekonomii Eksperymentalnej. Jego prace badawcze koncentrują się na analizowaniu oddziaływania czynników społecznych na wiedzę ekonomiczną. Jest twórcą i propagatorem nowego podejścia do nauczania ekonomii, opartego na metodach eksperymentalnych i obliczeniowych. Od 7 lat prowadzi zajęcia e-learningowe wykorzystujące eksperymenty ekonomiczne, modelowanie ACE oraz obliczenia symboliczne.

Komentarze

Nie ma jeszcze komentarzy do tego artykułu.

dodaj komentarz dodaj komentarz

Przypisy

1 Przedmiot Program R w zastosowaniach ekonomicznych i finansowych prowadzony na Uniwersytecie Warszawskim od 2006 r. jako e-learningowy kurs ogólnouniwersytecki w ramach IBIZA COME UW, kurs przygotowany przez K. Kopczewską i T. Kopczewskiego, obecnie prowadzony i uzupełniany przez M. Kopyta.

2 P. Lockhart, A Mathematician's Lament, 2002, www.maa.org/devlin/.... [20.03.2013].

3 A. Jakubowski, O przyszłości nauk matematycznych w Polsce, „Mathematica Applicanda” 2011, t. 12, nr 53, wydawnictwa.ptm.org.... [22.03.2013].

4 T. Żylicz, Czy należy uczyć matematyki studentów ekonomii?, [w:] M. Rocki (red.), Jakość kształcenia ekonomicznego, PTE, Warszawa 2009, s. 45-54.

5 G. Smith, Learning Statistics By Doing Statistics, „Journal of Statistics Education” 1998, t. 6, nr 3, www.amstat.org/publ.... [20.03.2013].

6 Projekt R-CRAN, cran.r-project.org/. [20.03.2013].

7 Oprogramowanie GNU, www.gnu.org/. [20.03.2013].

8 R.A. Muenchen, The Popularity of Data Analysis Software, r4stats.com/article.... [20.03.2013].

9 Hal Varian on how the Web challenges managers, www.mckinseyquarter.... [20.03.2013], tłumaczenie własne.

10 Wykłady internetowe TED Talks, www.ted.com/talks/h... _seen.html, [18.03.2013].

11 Projekt Revolution Analytics, www.revolutionanaly.... [18.03.2013].

12 Program Oracle R Enterprise, www.oracle.com/tech.... [21.03.2013].

13 Projekt R Studio, www.rstudio.com/ide.... [22.03.2013].

14 Portal Elastic-R, www.Elastic-R.net/. [22.03.2013].

15 Projekt GUI w R, www.sciviews.org/_r.... [22.03.2013].

16 Vignettes pakietu exams2, cran.r-project.org/.... [21.03.2013].

17 Portal Elastic-R, www.elasticr.net/. [21.03.2013].