AAA

Czy komputer potrafi zrozumieć tekst?

Pierwsze pakiety oprogramowania
analizujące wypowiedzi otwarte

Paweł Rubach


Artykuł zawiera przegląd literatury fachowej dotyczącej zastosowania komputerowej analizy wypowiedzi otwartych do oceny prac pisemnych oraz formułuje hipotezę dotyczącą dalszego rozwoju tego typu aplikacji. Szczegółowo opisano dwie implementacje tego typu oprogramowania: Project Essay Grade, stanowiący pakiet oprogramowania oparty na analizie statystycznej tekstu oraz Intelligent Essay Assessor, który używa metody Latent Semantic Analysis (LSA) do oceny jakości wypowiedzi otwartych. Wydaje się, że prawidłowy dalszy rozwój komputerowej analizy wypowiedzi otwartych powinien być ukierunkowany na połączenie czysto statystycznego podejścia z analizą semantyczną tekstu.

Wstęp

Komputerowa analiza wypowiedzi formułowanych otwartym tekstem w języku takim, jakim porozumiewają się ludzie między sobą, leży w kręgu zainteresowań naukowców z różnych dziedzin. Powodów ku temu jest kilka. Jeden z najbardziej spektakularnych to chęć zrealizowania marzenia polegającego na porozumiewaniu się człowieka z komputerem i wydawaniu maszynie poleceń za pomocą głosu w luźnej rozmowie. Jednak niniejszy artykuł porusza kwestię innego przeznaczenia komputerowej analizy tekstu, polegającego na stosowaniu tejże analizy w celu oceny merytorycznej zawartości tekstu, mogącej znaleźć zastosowanie w procesie nauczania. Nauczanie formułowania wypowiedzi pisemnych jest bardzo ważną częścią edukacji. Jednak ze względu na ogromną pracochłonność przy sprawdzaniu prac, wielu nauczycieli i wykładowców rezygnuje z tej formy weryfikacji wiedzy i umiejętności studentów. Wprowadzenie efektywnej technologii komputerowej, pozwalającej oceniać prace pisemne, umożliwiłoby zwiększenie wykorzystania tej formy egzaminowania i przyczyniłoby się zapewne do polepszenia naszych umiejętności pisania oraz podniesienia jakości tworzonych przez nas tekstów.

Oprogramowanie, potrafiące analizować i oceniać wypowiedzi otwarte, należy do grupy najbardziej zaawansowanych aplikacji wspomagających nauczanie. Choć jego rozwój rozpoczął się w drugiej połowie lat 60., nadal daleko mu do doskonałości1. Prekursorem w tej dziedzinie był Ellis Batten Page. Funkcjonujące obecnie programy komputerowe potrafią oceniać niezbyt długie i, co najważniejsze, napisane w języku angielskim teksty. W literaturze przedmiotu znane są trzy implementacje tego typu oprogramowania, rozwijane przez ośrodki akademickie: Project Essay Grade, Intelligent Essay Assessor oraz Electronic Essay Rater. W dalszej części opracowania zostaną przedstawione dwa pierwsze z nich.

Zanim jednak omówione zostaną konkretne rozwiązania technologiczne, należy przedstawić ogólne warunki, które spełniać powinno każde tego typu oprogramowanie.

Atrybuty oprogramowania analizującego tekst otwarty

Automatyczna analiza tekstów otwartych może być dokonywana różnymi metodami. Podstawą większości, opisywanych w tej pracy, metod oceny tekstów otwartych, są nielingwistyczne a statystyczne cechy tekstu. Dlatego też bardzo ważne jest, aby aplikacje oceniające spełniały kryteria warunkujące wiarygodność wystawianych przez nie ocen. W raporcie z sierpnia 19982 roku jednej z czołowych instytucji zajmujących się tą problematyką, Educational Testing Service (ETS), założonej przy uniwersytecie w Princeton, autorzy wymieniają cztery główne kryteria:

  1. Przejrzystość oceny
  2. Precyzja
  3. Nieprzejrzystość procedury oceniającej
  4. Koszty

1. Przejrzystość oceny

Każda ocena wystawiona przez program komputerowy powinna dać się uzasadnić. Innymi słowy, aplikacja nie może zachowywać się jak czarna skrzynka, do której wrzucamy wypowiedź, a następnie wyciągamy wynik. Każdy wygenerowany wynik powinien być, w sposób racjonalny, wytłumaczony za pomocą analizy jego powstania.

2. Precyzja

Każda procedura oceny (zarówno ręczna, jak również automatyczna) powinna charakteryzować się wysoką precyzją. Dokładność oceny, będąca istotnym miernikiem efektywności danej aplikacji, daje się zazwyczaj zbadać przez porównanie wyników oceniania przykładowego zestawu tekstów przez wykwalifikowane osoby oceniające oraz komputer. Im wyższy jest stopień korelacji ocen wystawionych przez człowieka i maszynę, tym wyższa precyzja danej aplikacji.

3. Nieprzejrzystość procedury oceniającej

Aplikacja nie powinna dawać się oszukiwać. Wyobraźmy sobie scenariusz, w którym procedura oceniająca bierze pod uwagę jedynie długość wypowiedzi. W tym przypadku zdający może w prosty sposób manipulować wynikiem, gdyż przy jego obliczaniu nie ma znaczenia ani treść, ani jej forma. Opisany tutaj scenariusz to oczywiście przypadek ekstremalny, jest on jednak przykładem sytuacji nie do zaakceptowania. Procedura oceniająca powinna być zatem złożona i na tyle nieprzejrzysta, aby nie mogła zostać wykryta przez studentów.

4. Koszty

Aplikacje oceniające mają służyć obniżeniu kosztów weryfikacji tekstów otwartych, dlatego koszty stosowania procedury oceniającej nie powinny przekraczać z góry ustalonych, akceptowalnych limitów. Z drugiej strony także koszty instalacji i przygotowania programu oceniającego, w tym "trenowanie aplikacji" z użyciem danych wzorcowych, mogą znacznie podnieść całkowite koszty stosowania tej technologii i dlatego powinny zostać uwzględnione podczas wyceny procedur testujących.

Wymienione tutaj podstawowe kryteria są na tyle uniwersalne, że powinny być stosowane przez wszystkich twórców tego typu oprogramowania.

Project Essay Grade - pierwsze oprogramowanie analizujące wypowiedzi otwarte

Project Essay Grade (PEG) to przykład oprogramowania potrafiącego analizować wypowiedzi otwarte. Prace nad tego typu pakietem rozpoczął w drugiej połowie lat 60. Ellis Batten Page. Badał on wypowiedzi używając kilkudziesięciu zmiennych, dostarczających statystycznych informacji na temat tekstu. Prace nad praktycznym zastosowaniem badań Page'a zostały zintensyfikowane na początku lat 90., czego rezultatem było badanie przeprowadzone w 1994 r. przez ETS, wykorzystujące PEG do oceny wypowiedzi otwartych. Podstawą działania pakietu PEG są dwa słowa kluczowe zaprezentowane przez autora: trin i prox. Słowo trin pochodzi od angielskiego wyrażenia intrinsic variables of interest i oznacza wewnętrzne zmienne, opisujące tekst otwarty, takie jak: dykcja, płynność, gramatyka, interpunkcja i wiele innych3. Trudno zmierzyć te zmienne, dlatego w praktyce pakiet analizuje tekst stosując tzw. prox, czyli aproximations, a więc przybliżenia zmiennych trin4. Pośród listy kilkudziesięciu stosowanych zmiennych prox można znaleźć m.in.: liczbę słów w wypowiedzi, średnią długość słowa, liczbę średników, przecinków itp. Metodologia stosowania oprogramowania PEG polega na:

  • dokonaniu oceny losowo wybranej partii tekstów przez ekspertów,
  • wczytaniu tych wypowiedzi i wystawionych ocen do pakietu PEG,
  • zbudowaniu, z wykorzystaniem regresji liniowej, modelu wypowiedzi, dla każdej z możliwych do wygenerowania ocen.

Tak zbudowany model jest używany w kolejnym kroku podczas oceny pozostałej części prac. W badaniu przeprowadzonym przez ETS analizowano około 1300 wypowiedzi. Wystawione przez aplikację PEG oceny porównywano z ocenami przyznanymi przez ekspertów, a następnie obliczono współczynniki korelacji między nimi. Uzyskana precyzja oceniania przez oprogramowanie wahała się, w zależności od poszczególnych kryteriów, jakie przyjęto. Stosunkowo najgorsze wyniki obserwowano podczas oceny całokształtu wypowiedzi oraz przy ewaluacji stylu pisma, w tych przypadkach współczynnik korelacji ocen wystawionych "maszynowo" był mniej więcej równy współczynnikowi korelacji ocen wystawionych przez dwóch lub trzech ekspertów. Najlepszą zgodność oceny automatycznej z manualną uzyskano podczas testowania treści merytorycznej oraz kreatywności piszących. Dla tych kryteriów pakiet PEG osiągał skuteczność porównywalną z oceną sześciu egzaminatorów5. Dzisiaj, mimo dosyć dobrych wyników zgodności ocen wystawianych przez pakiet PEG z ocenami ekspertów, program, który bazuje praktycznie wyłącznie na statystycznej analizie tekstów, trudno uznać za w pełni wiarygodny. Nie spełnia on bowiem pierwszego z czterech przedstawionych w punkcie 1 warunków, a mianowicie kryterium przejrzystości oceny. Trzeba jednak wziąć pod uwagę, że wyżej wymienione kryteria zostały opublikowane w 1998 roku, a więc cztery lata po przeprowadzeniu opisanego tutaj badania, wykorzystującego aplikację PEG. Reasumując należy powiedzieć, że mimo braku pełnego zaufania co do precyzji i adekwatności ocen wystawianych przez ten pakiet, trzeba uznać ogromny wkład twórcy pakietu PEG, Ellisa Battena Page'a w badania nad automatyczną oceną wypowiedzi otwartych.

Wersja demonstracyjna aplikacji oceniającej, bazującej na pakiecie PEG dostępna jest w internecie6.

Intelligent Essay Assessor - przykład implementacji metody LSA do oceny wypowiedzi otwartych

Drugim przykładem oprogramowania zdolnego do analizy wypowiedzi otwartych jest aplikacja Intelligent Essay Assessor (IEA) proponowana przez firmę Knowledge Analysis Technologies7. W odróżnieniu od pierwszego opisywanego pakietu - aplikacji PEG, oprogramowanie to bazuje głównie na analizie zawartości merytorycznej badanych wypowiedzi, nie uwzględnia przy tym czysto statystycznych miar tekstu. Aplikacja ta, do badania porównawczego treści wypowiedzi, korzysta z metody zwanej Latent Semantic Analysis (LSA), która stanowi rozwinięcie podejścia Latent Semantic Indexing (LSI), opatentowanego w 1989 r., jako metody kategoryzacji i pozyskiwania informacji. Ogólny opis działania metody LSA

LSA to statystyczno-matematyczna technika reprezentacji znaczenia słów i większych fragmentów tekstu, takich jak zdania lub akapity, polegająca na analizie korpusu tekstu8. Metoda LSA jest blisko związana ze sztucznymi sieciami neuronowymi, ale opiera się na tzw. Singular Value Decomposition (SVD), matematycznej technice redukcji wymiaru macierzy podobnej do analizy czynnikowej9, za pomocą której bada się teksty, zawierające w swoich treściach wiedzę na zadany temat zbliżoną, z punku widzenia objętości, do wiedzy posiadanej przez ludzi o odpowiednich kwalifikacjach10. Dzięki zastosowaniu metody LSA możliwe jest symulowanie ludzkiej oceny bliskości znaczeniowej słów lub fragmentów tekstu. Należy przy tym zaznaczyć, że nie chodzi tutaj jedynie o proste badanie sąsiadowania i współwystępowania słów, ale o wyrafinowaną analizę matematyczną, która jest w stanie oddać znacznie głębsze zależności między wyrazami. Dodatkowo, w celu zwiększenia precyzji działania, omawiana metoda przetwarza wstępnie tekst, analizując rozkład znaczeń poszczególnych słów w zależności od kontekstu, w jakim zostały one użyte. Metoda LSA może mierzyć odległość semantyczną dwóch fragmentów tekstu w "przestrzeni semantycznej", która jest zbudowana na podstawie tekstu wejściowego11. Sposób wykorzystania metody LSA w aplikacji IEA

Przed przystąpieniem do oceniania zadań otwartych program musi zostać ,"przetrenowany" z użyciem słownictwa związanego tematycznie z zadaniami, które mają być sprawdzane. Źródłem wiedzy specjalistycznej mogą być podręczniki w formie elektronicznej, artykuły naukowe lub wzorcowe wypowiedzi tekstowe, przygotowane przez wykwalifikowanych dydaktyków. Na podstawie tych tekstów program komputerowy buduje przestrzeń semantyczną, na której następnie bazuje, porównując wektory obliczone dla badanych wypowiedzi z wektorami odpowiadającymi tekstom wzorcowym o znanej wartości merytorycznej12. Dzięki zastosowaniu metody LSA aplikacja nie koncentruje się wyłącznie na porównywaniu tekstów za pomocą współwystępowania słów kluczowych, lecz dokonuje głębszej, pojęciowej analizy treści wypowiedzi13. Co za tym idzie, bardzo podobne według IEA teksty, wcale nie muszą wykorzystywać identycznego słownictwa. Istotnym czynnikiem mającym wpływ na skuteczność działania aplikacji jest dobór zestawu tekstów, z jakimi program porównuje badane wypowiedzi. Jednym z podejść jest technika oceny holistycznej, polegająca na porównywaniu zadania z kilkoma (zazwyczaj dziesięcioma), najbardziej podobnymi, według metody LSA, fragmentami tekstów. Wyniki jej zastosowania są zbliżone do efektów pracy ekspertów, którzy częściej oceniają wypowiedź tekstową jako całość niż biorą pod uwagę jej poszczególne elementy składowe14. W przeprowadzonych przez Educational Testing Service badaniach porównujących skuteczność oceniania holistycznego przez IEA z oceną ekspertów brano pod uwagę fragmenty egzaminów typu Graduate Management Admissions Test (GMAT)15. Każdy egzamin był oceniany przez dwóch ekspertów oraz przez aplikację IEA. Średnie wyniki uzyskane podczas oceny 1205 wypowiedzi pokazują, że współczynnik korelacji ocen wystawionych przez egzaminatorów, wynoszący 0,707, jest tylko nieznacznie wyższy od współczynnika korelacji ocen wystawionych przez program IEA z efektami pracy jednego z ekspertów i wynosi 0,70116. Inna metoda stosowania oprogramowania IEA polega na porównywaniu wypowiedzi osób zdających z wybranymi tekstami wzorcowymi. W tym przypadku egzaminujący przygotowuje tekst "idealny", który jest następnie wprowadzany do aplikacji IEA. Program komputerowy wystawia oceny na podstawie analizy podobieństwa wypowiedzi egzaminowanego z tekstem eksperta17.

Istotą jeszcze innego podejścia jest porównywanie fragmentów badanej wypowiedzi z fragmentami tekstów zaczerpniętymi z podręczników lub artykułów naukowych. Opisywana tutaj metoda porównawcza znajduje szczególne zastosowanie przy sprawdzaniu znajomości poszczególnych wycinków wiedzy, będącej przedmiotem wypowiedzi18. Może być ona pomocna dla zdających, jako metoda "samosprawdzania" wiedzy na zadany temat. Sposób działania aplikacji IEA, polegający na porównywaniu różnych tekstów ze sobą, powoduje, że wypowiedzi, charakteryzujące się nietypową konstrukcją lub rzadkim słownictwem, mogą być niewłaściwie oceniane przez program komputerowy. Z punktu widzenia metody LSA prawdopodobne jest, że merytorycznie dobry, lecz sformułowany w sposób oryginalny, tekst może zostać oceniony na równi z wypowiedzią, której treść przedstawia co najwyżej przeciętną wartość. Dlatego aplikację wyposażono w metodę rozpoznawania nietypowych wypowiedzi, które są oznaczane przez pakiet i przesyłane do oceny przez ekspertów19.

Reasumując wiadomości dotyczące aplikacji IEA należy zwrócić uwagę na najważniejsze zalety oraz wady tego programu. Do wad tego rozwiązania należy zaliczyć fakt, że metoda LSA nie bierze pod uwagę kolejności ulokowania poszczególnych słów w badanych zdaniach. Kolejnym mankamentem jest traktowanie każdego, z punktu widzenia ortografii, różnego słowa jako zupełnie osobną jednostkę znaczeniową. Jeszcze inną wadą są ogromne wymagania sprzętowe, dotyczące zwłaszcza wymaganej wielkości pamięci operacyjnej komputera (autorzy jako minimum określają ok. 1 GB), na którym pracuje IEA. Z drugiej strony, wysokie oceny skuteczności aplikacji oraz wbudowane mechanizmy wykrywania nietypowych prac, powodują, że oprogramowanie firmy Knowledge Analysis Technologies jest znacznie bardziej wiarygodne niż omawiany wcześniej pakiet PEG.

Zarówno działanie metody LSA, jak i również całej aplikacji IEA, można także sprawdzić korzystając z demonstracyjnego serwisu internetowego dostępnego pod http://LSA.colorado.edu i http://psych.nmsu.edu/essay/.

Podsumowanie

Przedstawione powyżej implementacje pakietów służące weryfikacji wiedzy, analizujące wypowiedzi otwarte, pozwalają na zaobserwowanie kierunków rozwoju tego typu oprogramowania. Można zauważyć przejście od metod wykorzystujących czysto statystyczne właściwości tekstu do metod używających skomplikowanej analizy matematyczno-statystycznej do badania merytorycznej treści wypowiedzi. Jednak, ze względu na zbyt mały nacisk kładziony przez twórców opisanych pakietów na lingwistyczne metody analizy tekstu, obydwie implementacje należy zaliczyć do programów komputerowych opartych na płytkiej analizie. Praktyczne wnioski wynikające z takiego zaklasyfikowania są następujące. Otóż przedstawione aplikacje mogą być z powodzeniem stosowane podczas oceny wypowiedzi otwartych jako tzw. "drugi egzaminator" obok wykwalifikowanych ekspertów, lecz nie powinny być używane jako jedyne źródło oceny wypowiedzi.

INFORMACJE O AUTORZE

PAWEŁ RUBACH
Autor jest asystentem w Szkole Głównej Handlowej, pracuje w Katedrze Informatyki Gospodarczej. Jego zainteresowania naukowe skupiają się wokół zagadnień związanych z systemami i metodami weryfikacji wiedzy, wykorzystywanymi zarówno w nauczaniu zdalnym, jak również w stacjonarnych ośrodkach egzaminacyjnych. Ponadto autor interesuje się oprogramowaniem Open Source, jego efektami ekonomicznymi oraz kwestią bezpieczeństwa infrastruktury informatycznej.

 

Komentarze

Nie ma jeszcze komentarzy do tego artykułu.

dodaj komentarz dodaj komentarz

Przypisy

1 Ich rozwój był wcześniej przewidywany przez Ellisa Battena Page'a w pracach pt.: The imminence of grading essays by computer (1966) oraz Analyzing student essays by computer. International Review of Education (1968).

D. Powers, J. Burstein, M. Chodorow, M. Fowles, K. Kukich., Stumping E-Rater: Challenging the Validity of Automated Essay Scoring, GRE Board Professional Report No. 98-08bP, ETS Research Report 01-03, Educational Testing Service, Princeton, marzec 2001.

2 R. M. Kaplan, S. Wolff, J. C. Burstein, Chi Lu, D. Rock, B. Kaplan., Scoring Essays Automatically Using Surface Features, GRE Board Report No. 94-21P, Educational Testing Service, Princeton, sierpień 1998.

3 E. B. Page, Computer Grading of Essays: A Different Kind of Testing?, Duke University, APA Annual Meeting, 13 sierpnia 1995 r., 134.68.49.185/pegde... 30.01.2003.).

4 tamże

5 tamże

6 Pod adresem 134.68.49.185/pegde...

7 Więcej informacji o firmie można znaleźć w internecie na stronie www.knowledge-techn...

8 Frase, T. Lawrance, Seven Technologies For Assessment, George Mason University; mason.gmu.edu/~amel....

9 Analiza czynnikowa stanowi zespół metod i procedur statystycznych pozwalających na zredukowanie dużej liczby zmiennych do kilku wzajemnie nieskorelowanych czynników. Zachowują one stosunkowo dużą część informacji tkwiących w zmiennych pierwotnych, a jednocześnie każda z nich jest nośnikiem innych treści merytorycznych - według: T. Panek, Materiały do zajęć publikacje, Instytut Statystyki i Demografii SGH; www2.sgh.waw.pl/sgh.... stan strony z 25.04.2003.

10 T. K. Landauer, P. W. Foltz, D. Laham, Introduction to Latent Semantic Analysis, "Discourse Processes", 1998, 25; www.knowledge-techn... 10.04.2003

11 D. Steinhart, Summary Street: an Intelligent Tutoring System for Improving Student Writing Through the Use of Latent Semantic Analysis, niepublikowana praca doktorska, Institute of Cognitive Science, University of Colorado, Boulder 2001.

12 Foltz P.W., Laham D., Landauer T.K., The Intelligent Essay Assessor: Applications to Educational Technology, "Interactive Multimedia Electronic Journal of Computer-Enhanced Learning", Volume 1, Number 2, październik 1999, Wake Forest University; imej.wfu.edu/articl... 20.09.2004

13 tamże

14 tamże

15 Egzaminy GMAT są nadzorowane przez Graduate Management Admissions Council, zajmujące się weryfikowaniem wiedzy studentów podyplomowych programów nauczania zarządzania (przede wszystkim MBA). Więcej informacji można znaleźć na stronach poświęconych egzaminom GMAT pod adresem www.gmat.org

16 Foltz P.W., Laham D., Landauer T.K., The Intelligent Essay Assessor: Applications to Educational Technology, "Interactive Multimedia Electronic Journal of Computer-Enhanced Learning", Volume 1, Number 2, październik 1999 r., Wake Forest University; imej.wfu.edu/articl... 20.09.2004

17 tamże

18 tamże

19 tamże