AAA

Aspekty zarządzania wiedzą w sterowaniu procesami produkcyjnymi w kontekście zastosowania eksploracji danych1

Krzysztof Regulski

Wprowadzenie

Włączenie elementów zarządzania wiedzą w proces zbierania i archiwizacji danych oraz ich dalsza odpowiednia archiwizacja i właściwy opis mogą wpłynąć na poprawę jakości sterowania tymi procesami i - przy zastosowaniu technik eksploracji danych - wspomóc ich optymalizację. Aby jednak takie rozwiązania były możliwe, konieczne jest ciągłe budowanie wśród personelu świadomości, jakie możliwości otwierają techniki eksploracji danych. Celem artykułu jest ukazanie praktycznych aspektów data miningu - problemów, z jakimi można się spotkać przy analizie danych produkcyjnych różnymi technikami eksploracji - i jednocześnie przedstawienie, w jaki sposób tych problemów uniknąć, organizując proces pozyskiwania danych zgodnie z wymaganiami zarządzania wiedzą.

Zarządzanie wiedzą w warunkach przemysłowych

Zapewnienie konkurencyjności, również w przemyśle ciężkim, w warunkach dzisiejszej gospodarki wymaga elastyczności produkcji i zastosowania wysokiej jakości procesów i materiałów. Niejednokrotnie o jakości decyduje know-how personelu. Tym, co stanowi o sile rynkowej zakładów produkcyjnych, są stosowane technologie, know-how, wypracowane procedury zapewniania jakości, relacje z kontrahentami, czyli marka, skuteczne metody zarządzania. Wymienione elementy kapitału nazywane są aktywami niematerialnymi, a zarządzanie nimi to zadanie zarządzania wiedzą.

Zarządzanie wiedzą to ogół procesów umożliwiających tworzenie, upowszechnianie i wykorzystywanie wiedzy do realizacji celów organizacji2. Definicja ta wskazuje trzy najważniejsze obszary zarządzania wiedzą, obszary, które również odpowiadają kierunkom rozwoju informatycznych narzędzi zarządzania:

  • narzędzia wspomagające tworzenie wiedzy - modele wykorzystujące m.in. koncepcję organizacji uczącej się, japoński model SECI (przy czym dotyczą one w znacznej mierze kwestii kultury organizacyjnej i technik zarządzania personelem); do tej grupy należy zaliczyć także narzędzia eksploracji danych pozwalających na wyciąganie wniosków nt. relacji i reguł produkcyjnych;
  • upowszechnianie wiedzy - narzędzia do pracy zespołowej, przepływu pracy (groupware, workflow), narzędzia komunikacyjne, portale korporacyjne, wielodostępowe bazy danych, bazy wiedzy, ontologie, analiza syntaktyczna, sieci semantyczne;
  • wykorzystywanie wiedzy - kodyfikacja wiedzy dla potrzeb wspomagania podejmowania decyzji (np. MIS - Management Information System, EIS - Executive Information System, DSS - Decision Support System, ERP, ERP II, Business Intelligence). W tej grupie znajdują się również systemy ekspertowe, które są w stanie wykorzystywać wiedzę w postaci reguł we wspomaganiu podejmowania decyzji technologicznych.

Przedstawiony podział zadań zarządzania wiedzą jest zgodny z prezentowanym w literaturze tematu3. Daje się zauważyć, że „wykorzystywanie wiedzy” rozumiane jest tutaj raczej jako zastosowanie wiedzy i metod wnioskowania w celu wspomagania podejmowania decyzji. Jednakże upowszechnianie wiedzy niesie już ze sobą obowiązek dostarczenia (zgodnie z główną zasadą logistyki) właściwych informacji we właściwej ilości, o właściwym czasie, właściwej jakości, we właściwym miejscu, właściwemu pracownikowi, po właściwej cenie (nakład pracy) - co zapewnia w efekcie właściwe wykorzystanie.

Zarządzanie wiedzą opiera się na dwóch podstawowych filarach - pierwszy to procedury oraz czynniki motywacyjne i obyczajowe w organizacji, drugi - infrastruktura informatyczna. Stąd tak ważne staje się propagowanie wśród kadry menedżerskiej korzyści, jakie może dawać położenie nacisku na stały rozwój i tworzenie wiedzy eksperckiej zespołu. Tworzenie wiedzy może mieć różne oblicza - od zwykłego pozyskiwania informacji literaturowych, które - wszczepione w praktyczne rozwiązania - mogą podnosić jakość stosowanych technologii, aż do akwizycji wiedzy w postaci reguł zbudowanych na podstawie faktycznych danych produkcyjnych. Takie reguły, gdy są unikatowe, właściwe jedynie dla zakładu, w którym zostały pozyskane, stanowić mogą o jakości produkcji, a tym samym o konkurencyjności.

Eksploracja danych w procesach produkcyjnych

Zastosowanie metod eksploracji danych (data mining) w sterowaniu procesami i analizie zjawisk staje się coraz bardziej popularne ze względu na zwiększającą się dostępność danych, łatwość ich przechowywania i powszechną komputeryzację. W przemyśle od lat stosuje się metody badawcze związane z przetwarzaniem dużej liczby danych - najczęściej są to procedury kontroli przebiegu parametrów i karty kontrolne. W praktyce często jednak zdarza się, że dane te nie są archiwizowane, służą jedynie bieżącemu monitorowaniu produkcji. Z punktu widzenia zarządzania wiedzą i możliwości, jakie daje zastosowanie eksploracji danych, brak procedur pozwalających na archiwizację i przetwarzanie danych procesowych stanowi przejaw rażącej niegospodarności w zarządzaniu zasobami informacji, jakie znajdują się w przedsiębiorstwie.

Eksploracja danych pozwala często na odkrycie zależności, które mogą w istotny sposób wpłynąć na jakość produkcji - np. poprzez optymalizację parametrów procesu, odpowiednie dostosowanie właściwości wykorzystywanych materiałów czy zaprojektowanie najbardziej efektywnej ścieżki produkcji. Możliwość zastosowania poszczególnych technik data miningu warunkowana jest sposobem pozyskiwania danych - ich rozmiarem, strukturą, charakterystyką i jakością. Ponieważ sam fakt zapisywania parametrów procesu najczęściej wynika z konieczności monitorowania samego jego przebiegu, a technolodzy najczęściej nie znają innych możliwości wykorzystania tych danych - zbierane są one jedynie w takim wymiarze, jaki jest konieczny do oceny jakości procesu, a po krótkim czasie stają się bezużyteczne i zostają zaprzepaszczone.

Dane produkcyjne

Dane produkcyjne to najczęściej zapis przebiegów wartości zmiennych będących parametrami procesu. Część z tych zmiennych odzwierciedla stan wejściowy (np. skład chemiczny stosowanych materiałów, ilość i jakość surowców), część reprezentuje parametry samego procesu - np. w przypadku procesów metalurgicznych są to: temperatura, ciśnienie, przepływy powietrza.

Parametry procesu dzielą się z kolei na te, na które technolog ma bezpośredni wpływ (np. poprzez nastawy urządzeń) oraz na te, którymi można sterować jedynie pośrednio - poprzez wymienione już nastawy urządzeń czy właściwości materiałów wsadowych. Taka sytuacja może przykładowo mieć miejsce w przypadku pieca, w którym wprawdzie można ustawić żądaną temperaturę, jednak ostateczna temperatura kąpieli metalowej jest wypadkową temperatury pieca, ciśnienia, przepływów powietrza oraz reakcji egzotermicznych (zależnych z kolei od składu chemicznego kąpieli metalowej).

Ostatnim typem zbieranych danych są zmienne wyjściowe - mogą to być właściwości produktu procesu, tj. jego skład chemiczny, zawartość niepożądanych wtrąceń czy właściwości mechaniczne.

Zadaniem technologa jest sprawdzanie, czy poszczególne parametry procesu i zmienne wyjściowe mieszczą się w normach, czy proces produkcyjny przebiega bez zakłóceń i czy produkt nie zawiera wad. W razie defektów stosowane są działania naprawcze, jeśli natomiast nie wystąpiły nieprawidłowości, cykl rozpoczyna się od początku.

W takim trybie bardzo często dane przechowuje się jedynie kilka miesięcy, czasem nawet jedynie kilka tygodni - do ewentualnego wglądu na potrzeby kontroli jakości. Zazwyczaj dane te nie są poddawane dalszym analizom. Jest to bardzo niegospodarne podejście do zasobów, jakie stanowią dane produkcyjne. Dlaczego? Otóż zawierają one często cenne informacje o charakterze procesu, wiedzę, która często bywa zupełnie unikatowa, niepowtarzalna, właściwa jedynie dla danego zakładu. Dzieje się tak, ponieważ nadal wiele zjawisk nie doczekało się teoretycznego modelu, a nawet jeśli on powstał, to jest ogólnym opisem uwzględniającym wyidealizowane układy odniesienia. Dane produkcyjne odzwierciedlają natomiast stan procesu, który ma miejsce w konkretnym miejscu i czasie - często na wyniki mają wpływ dodatkowe czynniki, jak np. wilgotność powietrza w hali produkcyjnej czy temperatura na zewnątrz urządzeń. Dane produkcyjne w obiektywny sposób oddają stan pomiarów - czasem mogą ujawnić się dzięki temu nieprawidłowości w samym sposobie zbierania danych czy nawet awarie urządzeń pomiarowych.

Pierwszy krok - analiza korelacji

W niniejszym opracowaniu autor posłuży się przykładem analizy wykonywanej w Akademii Górniczo-Hutniczej w Krakowie dla pewnego zakładu metalurgicznego. Proces produkcyjny obejmował wytwarzanie prażonki wykorzystywanej do otrzymywania cynku sposobem hydrometalurgicznym. Z punktu widzenia wydajności procesu produkcji cynku metalicznego kluczowa jest zawartość siarki siarczkowej w skondensowanych produktach procesu prażenia (zawartość Ss w blendzie). Im mniejsza zawartość tego związku, tym wydajniejszy jest proces pozyskiwania cynku.

Obliczeń dokonano dla danych zebranych w okresie jednego miesiąca. Dane znajdujące się w systemie sterowania były zbierane i archiwizowane co minutę, a te dotyczące składu chemicznego koncentratu oraz zawartości siarki siarczkowej w prażonce zaczerpnięto z dokumentacji wydziału prażalni. Ponieważ nieznany jest czas pobrania próbki do analiz, przyjęto założenie upraszczające, polegające na sztywnym przypisaniu czasu pobrania próbki (np. dla danych z I zmiany przyjęto, że próbka jest pobierana o godz. 7:00; jeśli występowały trzy wartości danego parametru, to zakładano, że są to kolejne próbki - pobierane o 7:00, 10:00 i 13:00). W celu uzyskania danych analitycznych z identyczną częstotliwością jak w przypadku danych automatycznie rejestrowanych w systemie komputerowym wygenerowano odpowiednie wartości, stosując interpolację funkcją liniową pomiędzy kolejnymi punktami4. Uzyskano w ten sposób ponad 27 000 rekordów pomiarowych.

Dane obejmowały 21 zmiennych. Zmienną wyjściową była zawartość wspomnianej już siarki siarczkowej w skondensowanych produktach procesu prażenia. Celem analizy było odkrycie zależności pomiędzy zmienną wyjściową a zmiennymi stanowiącymi parametry procesu, w tym:

  • składem chemicznym wsadu (koncentratu) w szczególności zawartością cynku, ołowiu, żelaza i siarki; skład ten stanowił wejścia niezależne, na które technolog nie ma wpływu;
  • parametrami, których wartość można zmieniać poprzez zmianę wartości innych parametrów, w tym: temperatury w piecu, w poszczególnych warstwach, temperatury prażonki, temperatury za kotłem, ciśnieniem w różnych obszarach pieca;
  • parametrami sterującymi, czyli takimi, których wartość można zmieniać bezpośrednio: ilość wsadu, ciśnienie powietrza za dmuchawą, przepływy powietrza w różnych strefach;

Na rysunku 1 widać przebieg wartości uszeregowanej rosnąco zawartości siarki siarczkowej w zależności od składu chemicznego. Dla ułatwienia analizy wartości na wykresie zostały zestandaryzowane.

Rysunek 1. Przykładowy przebieg parametrów procesu produkcyjnego
Rysunek 1. Przykładowy przebieg parametrów procesu produkcyjnego
Źródło: opracowanie własne

Prosta analiza graficzna zmiennych nie dała rezultatu - zmienne mają przebieg losowy i nie widać żadnych bezpośrednich wpływów na zmienną wyjściową. Podobny efekt dały analizy przebiegu poszczególnych zmiennych wejściowych (objaśniających). W tej sytuacji odwołano się do statystycznej analizy korelacji pomiędzy zmiennymi (tabela 1). Analiza ta pozwoliła ustalić, że choć większość zmiennych objaśniających wykazuje korelację ze zmienną zależną (zawartość Ss w blendzie), to jest to korelacja nikła - co oznacza, że zmienne objaśniające wpływają na ostateczną szkodliwą zawartość siarki siarczkowej, ale w sposób znikomy. Zbadano również korelacje cząstkowe pomiędzy zmiennymi objaśniającymi. Zmienne wykazywały bardzo silne korelacje wewnętrzne, np. temperatura w środku pieca oraz temperatury warstwy 1, 2 i 3 zanotowały korelację powyżej 0,92, czyli prawie pełną. To z kolei oznacza zależność niemal funkcyjną (każda z tych zmiennych wprowadza do modelu podobną informację, ich zmienność w ten sam sposób wpływa na zmienność zmiennej zależnej).

Tabela 1. Współczynniki korelacji liniowej poszczególnych zmiennych objaśniających ze zmienną zależną zawartość Ss w blendzie

  Zawartość Ss w blendzie
Temperatura w środku pieca 0,13
Temperatura warstwy 1 0,08
Temperatura warstwy 2 0,05
Temperatura warstwy 3 0,15
Temperatura w górze pieca 0,00
Temperatura za kotłem 0,16
Temperatura prażonki w zbiorniku progowym 0,34
Ilość nadawy1 -0,03
Ilość nadawy2 -0,03
Ciśnienie powietrza za dmuchawą -0,08
Ciśnienie powietrza pod trzon -0,09
Ciśnienie powietrza pod komorę chłodzenia 0,11
Ciśnienie w górze pieca 0,16
Przepływ powietrza pod trzon 0,05
Przepływ powietrza pod komorę chłodzenia 0,15
Obroty WGG 0,00
Stężenie SO2 za aparatem kontaktowym -0,12
Zawartość Zn w koncentracie -0,02
Zawartość Pb w koncentracie 0,24
Zawartość Fe w koncentracie -0,18
Zawartość S w koncentracie -0,25
Źródło: opracowanie własne na podstawie danych przemysłowych

Postanowiono pozostawić po jednej zmiennej objaśniającej, mającej największy wpływ na zmienną zależną w poszczególnych grupach zmiennych skorelowanych ze sobą:
  • temperatura warstwy 3,
  • temperatura za kotłem,
  • temperatura prażonki w zbiorniku progowym,
  • ilość nadawy 15,
  • ciśnienie powietrza pod komorę chłodzenia,
  • zawartość Zn, S, Pb, Fe w koncentracie.

Szczególnie obiecująca wydawała się zmienna temperatura prażonki w zbiorniku progowym. Posiadała największą korelację ze zmienną zależną i była słabo skorelowana z pozostałymi zmiennymi objaśniającymi - co sugerowało dużą przydatność dla modelu regresji, podobnie jak zawartość Pb w koncentracie. W dalszych analizach zbadano dokładniej tę zmienną.

Na rysunku 2 przedstawiono wykres rozrzutu punktów dla wygładzonych przebiegów zmiennej zależnej i temperatury prażonki z naniesioną linią regresji.

Rysunek 2. Wykres rozrzutu punktów dla wygładzonych przebiegów zmiennej zależnej i temperatury prażonki z naniesioną linią regresji
Rysunek 2. Wykres rozrzutu punktów dla wygładzonych przebiegów zmiennej zależnej i temperatury prażonki z naniesioną linią regresji
Źródło: opracowanie własne

Wykres rozrzutu pokazuje pewne charakterystyczne wady tych danych. Na pierwszy rzut oka wydawałoby się, że nie istnieje korelacja między tymi zmiennymi. Stąd obliczony współczynnik korelacji r=0,37 bierze się raczej z pewnych występujących w pomiarach błędów.

Na etapie zbierania danych parametry pieca, w tym temperatura prażonki, mierzone były co minutę. Natomiast zmienna wyjściowa - zawartość Ss w blendzie - notowana była ręcznie, mniej więcej co godzinę, jednak bez odnotowywania szczegółowego czasu pomiaru. Aby uzupełnić pomiary z pieca, przypisano pomiary zawartości Ss dokładnie równym godzinom, a następnie dokonano interpolacji funkcją liniową pomiędzy punktami - co dało taki efekt, że bardzo dokładne wartości parametrów pieca przypisane zostały do oszacowanych i niedokładnie przypisanych wartości parametrów zmiennej wyjściowej. Stąd efekt pionowych i poziomych „linii” na wykresie rozrzutu, które w przypadku zmiennych losowych raczej nie powinny występować.

Zbadano również przebieg zmiennej temperatura prażonki w zbiorniku progowym (rysunek 3). Okazało się, że zmienna ta przyjmuje wartości zupełnie „nietechnologiczne” - w rzeczywistym procesie nie mogłyby wystąpić temperatura poniżej zera czy skoki temperatury o blisko 400°C w ciągu kilku minut. Wniosek - urządzenie pomiarowe zostało uszkodzone w okolicach 7000 pomiaru. W dalszej części analiz nie można się zatem opierać na tej zmiennej.

Dodatkowa wiedza o sposobie zbierania danych spowodowała, że utwierdzono się w przekonaniu, iż budowanie modelu regresji w tym przypadku jest bezcelowe. Nie można na podstawie pomiarów przypisanych w tak losowy sposób do wyników budować modelu matematycznego. Mając jednak tak dużo danych, warto spróbować bardziej odpornych metod.

Rysunek 3. Przebieg zmiennej temperatura prażonki w zbiorniku progowym
Rysunek 3. Przebieg zmiennej temperatura prażonki w zbiorniku progowym
Źródło: opracowanie własne

W poszukiwaniu ukrytych zależności

Nie mogąc zastosować metod regresyjnych (pozwalających na oszacowanie dokładnej wartości zmiennej zależnej na podstawie przebiegu zmiennych objaśniających), można spróbować wykorzystać narzędzia klasyfikacyjne. W tym przypadku na podstawie zmiennych objaśniających model ma przewidzieć, do jakiej klasy wartości należeć będzie zmienna zależna. W tym celu dodano do danych kolejną zmienną - klasa Ss. Zmienna ta przyjmuje wartość 1 w sytuacji, gdy zawartość Ss wynosi poniżej 0,6 proc., natomiast wartość 0, gdy zawartość jest większa. Celem modelu klasyfikacyjnego było odkrycie takiej konfiguracji parametrów, przy której zajdzie największe prawdopodobieństwo, że zmienna zależna (klasa Ss) będzie miała wartość 1 (czyli najmniejszą zawartość Ss). Taki podział próby spowodował, że przypadków, gdy klasa Ss = 1, było jedynie 6,3 procent. Ustawianie granicy klas powyżej 0,6 proc. zawartości (co zwiększyłoby liczebność klasy) skutkowałoby zmniejszeniem wartości informacyjnej modelu, z drugiej jednak strony taki układ liczebności klas powoduje kolejne komplikacje przy budowie modelu, gdyż prawdopodobieństwa a priori są bardzo nierówne.

Ze względu na opisane wcześniej istotne wady zbioru danych zastosowano kilka modeli. Obliczeń dokonano za pomocą pakietu STATISTICA 9.1 (rysunek 4).

Rysunek 4. Widok projektów przygotowanych w module Data Miner pakietu STATISTICA 9.1

Źródło: opracowanie własne


Zbiór danych podzielono na zbiór uczący i testowy. Niektóre modele uczono na pełnym zbiorze danych, stosując następnie V-krotny sprawdzian krzyżowy. Metodologia ta jest dobrze znana i szeroko opisywana w literaturze.

W omawianym przypadku celem było znalezienie metody, która najlepiej sprawdzi się w zastosowaniu do danych obarczonych pewnym błędem pomiarowym i aproksymowanych, możliwe nawet, że przesuniętych w fazie.

Zastosowano: analizę dyskryminacyjną (GDA), sztuczne sieci neuronowe (SANN), metodę wektorów nośnych (SVN), metodę k-najbliższych sąsiadów (KNN) oraz metodę indukcji drzew klasyfikacyjnych, w tym algorytmy CART oraz CHAID. Oprócz algorytmu CART żaden z modeli nie dał lepszej klasyfikacji niż 60 proc. w przypadku przewidywania klasy Ss=1. Oznacza to, że o ile modele te świetnie nauczyły się przewidywać, że zawartość Ss w prażonce przekroczy 0,6 proc. (a takich przypadków było ponad 90 proc.), o tyle w sytuacji, gdy zawartość w rzeczywistości była niska, modele nadal przewidywały klasę 0. Skuteczność tych modeli wynosiła jedynie nieznacznie powyżej 55 procent.

W związku z tym postanowiono ponownie przyjrzeć się zmiennym objaśniającym i skorzystać z metody CART, która dawała najlepsze rezultaty (tabela 2). Dla klasy Ss=1 (czyli tej bardziej kłopotliwej obliczeniowo) błąd modelu wyniósł jedynie 1,96 proc., co oznacza, że model błędnie zaklasyfikował 33 z 1683 przypadków. Całkowity błąd modelu dla obu klas wyniósł 0,28 proc. - 76 błędnych klasyfikacji na 26 772 rekordów.

Tabela 2. Macierz klasyfikacji dla modelu CART

  Macierz klasyfikacji (Dane Uczące)
Zm. zal.: Klasa SS
Model: CART
Obserw. Przewidywana 0 Przewidywana 1 Łącznie w wierszu
Liczba 0 25046 33 25079
Procent z kolumny   99.83% 1.96%  
Procent z wiersza   99.87% 0.13%  
Procent z ogółu   93.55% 0.12% 93.68%
Liczba 1 43 1650 1693
Procent z kolumny   0.17% 98.04%  
Procent z wiersza   2.54% 97.46%  
Procent z ogółu   0.16% 6.16% 6.32%
Liczba Ogół grup 25089 1683 26772
Procent łącznie   93.71% 6.29%  
Źródło: opracowanie własne

Stosując model CART, możemy ustalić ważność predykatorów (zmiennych objaśniających). Ważność ta mówi nam, jak silny wpływ ma dana zmienna na wartość zmiennej zależnej. Ta informacja jest podobna do obliczanych początkowo współczynników korelacji, jednak ustalana jest na podstawie indeksu Giniego i nie jest ograniczona do zależności liniowych. W tym przypadku najważniejszymi zmiennymi w modelu okazały się: zawartości siarki (S), cynku (Zn) oraz ołowiu (Pb) w koncentracie (czyli skład chemiczny wsadu). W dalszej kolejności wystąpiły zmienne sterujące, czyli ciśnienie i przepływ powietrza oraz ilość nadawy. Zmienna będąca parametrem, na który nie mamy bezpośredniego wpływu w procesie, czyli temperatura - ma znikomy wpływ na wartość zmiennej zależnej.

Warto zauważyć, że model poradził sobie również z wadami danych - temperatura prażonki, która pozwoliła wskazać błędy w urządzeniach pomiarowych, została oznaczona jako najmniej ważna w modelu (rysunek 5).

Rysunek 5. Ranking ważności zmiennych objaśniających przygotowany z pomocą algorytmu CART

Źródło: opracowanie własne

Na schemacie (rysunek 6) powiększono wybrany fragment drzewa klasyfikacyjnego, z którego można odczytać reguły pozwalające na uzyskiwanie oczekiwanych wartości klas. Przykładowa reguła uzyskana na podstawie omawianego modelu CART brzmi:



Rysunek 6. Drzewo klasyfikacyjne uzyskane za pomocą algorytmu CART dla zmiennej zależnej klasa Ss
Rysunek 6. Drzewo klasyfikacyjne uzyskane za pomocą algorytmu CART dla zmiennej zależnej klasa Ss
Źródło: opracowanie własne

Odczytanie reguł z modelu drzewa pozwala na skonstruowanie zasad sterowania procesem produkcji w zależności od wartości składu chemicznego (który jest niezależny od technologa). Można dzięki tym regułom dopasować wartości sygnałów sterujących w taki sposób, aby uzyskać jak najmniejsze wartości szkodliwych zawartości siarki siarczkowej (Ss).

Analiza skupień

Analizując ten przypadek, można zauważyć, że na ostateczną wartość zmiennej zależnej nie wpływa żadna konkretna zmienna, lecz cała konfiguracja parametrów. Takie zależności trudniej opisać niż sytuację, w której można wykazać liniowy związek kilku zmiennych. Z pomocą przychodzi tutaj analiza skupień. Technika zwana inaczej grupowaniem bądź klasteryzacją opiera się na wyszukiwaniu wśród danych naturalnych grup przypadków posiadających podobne charakterystyki. Technika ta najczęściej sprawdza się w analizach rynku, kiedy grupowanie prowadzi do segmentacji klientów - wyszukiwania zbiorowisk o podobnych cechach. W opisywanym przypadku zastosowano metodę EM (Expectation Maximisation), która pozwala nie tylko obliczyć odległości pomiędzy grupami, ale również oszacować prawdopodobieństwo przynależności do każdego ze skupień. Zastosowanie analizy skupień pozwoliło określić, które parametry najbardziej różnicują poszczególne przypadki.

Rysunek 7. Wykres średnich zmiennych dla analizy skupień uzyskanych metodą EM

Źródło: opracowanie własne

Można wyciągnąć wnioski, że dla skupienia, które posiada najmniejsze zawartości Ss (skupienie 3 na rysunku 7), charakterystyczne są duże zawartości siarki i żelaza w koncentracie, przeciętna zawartość cynku i niska zawartość ołowiu. Do skupienia 3 należą również te przypadki, w których odnotowano mały przepływ powietrza pod komorę chłodzenia, ale stosunkowo duże ciśnienie pod komorą - przy dużej ilości nadawy. Należy utrzymywać niską temperaturę warstwy 3 i umiarkowaną temperaturę za kotłem.

Podobnie jak w przypadku drzew klasyfikacyjnych - widać, że temperatura prażonki nie różnicuje istotnie skupień, czyli nie ma znaczenia dla analizy.

Dzięki metodzie EM możemy również porównać rozkłady zmiennych w poszczególnych skupieniach. Można zauważyć, że dla składu chemicznego najbardziej różnicującym składnikiem jest siarka. W przypadku skupienia 3 (czyli tego, w którym zawartości Ss są najmniejsze) siarki w koncentracie jest zdecydowanie najwięcej, stosunkowo duża jest również zawartość ołowiu (rysunek 8).

Rysunek 8. Wykresy rozkładu zmiennych w poszczególnych skupieniach.

Źródło: opracowanie własne

Zarządzanie wiedzą w służbie eksploracji danych

Eksploracja danych pozwoliła wyznaczyć parametry, które wpływają na zmienną zależną, jaką jest zawartość siarki siarczkowej w prażonce. Znany jest również kierunek tych zależności - co pozwala określić, które parametry należy minimalizować, które maksymalizować, a które należy wypośrodkować. Eksploracja danych pozwoliła na utworzenie reguł dotyczących sterowania procesem w taki sposób, aby wyeliminować szkodliwe substancje. Analiza skupień wykazała wpływ składu chemicznego materiału wsadowego na właściwości produktu. Takie reguły pozwalają w istotny sposób doskonalić proces produkcyjny i poprawiać jakość wyrobów.

W trakcie badań napotkano jednak na szereg wskazanych wcześniej problemów. Gdyby na etapie zbierania danych uniknięto tych błędów, analiza mogłaby doprowadzić do jeszcze bardziej szczegółowych wniosków.

Jak wcześniej zauważono, podczas eksploracji danych zostało odkrytych kilka poważnych mankamentów samego procesu pomiarowego. Wynikały one w dużej mierze z nieświadomości, do czego pozyskiwane dane mogą służyć. Już samo odnotowanie dokładnego czasu przy pomiarach zmiennej zależnej w znacznym stopniu ułatwiłoby dalszą analizę i być może umożliwiłoby budowę modelu regresyjnego, prognozującego dokładną wartość zmiennej zależnej zamiast oznaczenia klasy.

Istotny problem, zwłaszcza na początku analizy, stanowił również dobór zmiennych do modelu. Odpowiednią wiedzę w tym zakresie najczęściej posiadają technolodzy, ale w trakcie realizacji zadań poszczególni wykonawcy analizy nie mają ze sobą kontaktu - co uniemożliwia przepływ informacji i wymianę doświadczeń.

Z kolei wyniki analizy zostają najczęściej opisane w formie raportu i przekazane kierownictwu, często z pominięciem najniższego szczebla - technologów mających faktyczny wpływ na przebieg procesu. Sprawia to, że efektów analiz często nie da się zastosować i zweryfikować w pełnym zakresie, bowiem nie istnieje sprzężenie zwrotne.

Rysunek 9. Rola zarządzania wiedzą w procesie eksploracji danych
Rysunek 9. Rola zarządzania wiedzą w procesie eksploracji danych
Źródło: opracowanie własne

W typowym, jak na razie, procesie eksploracji danych na potrzeby sterowania największym problemem jest działanie jednorazowe. Cykl wygląda mniej więcej następująco: technolog diagnozuje problem i zgłasza go do kierownictwa, kierownictwo zamawia ekspertyzę w jednostce zewnętrznej (instytucie, uczelni, firmie), jednostka badawcza zgłasza zapotrzebowanie na dane potrzebne do analizy, kierownictwo przekazuje dostępne informacje (często zbierane ze względu na inne wymagania), raport z analiz zostaje przekazany kierownikowi, odbywa się zebranie, na którym ustala się z technologiem, czy można wdrożyć proponowane zmiany, a następnie zapomina się o całej sytuacji aż do powstania kolejnego problemu.

Świadomość, jak ważne są dane i prawidłowy przepływ wiedzy, mogłaby w znaczący sposób usprawnić procesy „uczenia” się przedsiębiorstw. Drobne zmiany w zakresie zarządzania wiedzą mogą istotnie wpłynąć na jakość produkcji i konkurencyjność zakładów przemysłowych - może warto się nad tym zastanowić?

Bibliografia

  • J. Kusiak i in., Sprawozdanie z pracy pt.: „Określenie możliwości zastosowania technik sztucznej inteligencji w procesie prażenia koncentratów cynku”, AGH, Kraków 2010.
  • P. Murray, A. Myers, The Facts About Knowledge. Special Report, 1997, http://www.info-strategy.com.
  • J. Nonaka, H. Takeuchi, Kreowanie wiedzy w organizacji, Poltext, Warszawa 2000.
  • G, Probst, S. Raub, K. Romhardt,
  • , Oficyna Ekonomiczna, Kraków 2002.

INFORMACJE O AUTORZE

KRZYSZTOF REGULSKI

Autor jest doktorem nauk technicznych, adiunktem w Katedrze Informatyki Stosowanej i Modelowania AGH. Zajmuje się zarządzaniem wiedzą w przemyśle, jest autorem licznych publikacji z tej dziedziny. Szczególnie interesują go zagadnienia związane z inteligentnymi systemami diagnostycznymi. Z rynkiem biznesowym łączą go działania związane z prowadzeniem badań i analiz rynku dla krakowskich firm, m.in. Wydawnictwa Literackiego.

 

Informacje o artykule

pdf abstract in English

Komentarze

Nie ma jeszcze komentarzy do tego artykułu.

dodaj komentarz dodaj komentarz

Przypisy

1 Praca została wykonana w ramach umowy AGH nr 11.11.110.085.

2 P. Murray, A. Myers, The Facts About Knowledge. Special Report, 1997, www.info-strategy.c.... [13.11.2012].

3 G.Probst, S.Raub, K. Romhardt, Zarządzanie wiedzą w organizacji, Oficyna Ekonomiczna, Kraków 2002; J. Nonaka, H. Takeuchi, Kreowanie wiedzy w organizacji, Poltext, Warszawa 2000.

4 J. Kusiak i in., Sprawozdanie z pracy pt.: „Określenie możliwości zastosowania technik sztucznej inteligencji w procesie prażenia koncentratów cynku”, AGH, Kraków 2010.

5 Nadawa - substancje wtłaczane za pomocą nadmuchu powietrza do wnętrza pieca w trakcie procesu.