Eksploracja danych (data mining) jest procesem opartym na metodach statystycznych i technikach AI, którego celem jest odkrywanie reguł i wiedzy zawartej w bazach danych. Zdobyta wiedza nie jest wynikiem samych danych, ale odpowiedzią na pytanie – dlaczego te a nie inne dane znalazły się w tym konkretnym miejscu.
Data mining jest:
- klasycznym narzędziem generującym sprawozdania i analizy
- automatycznym procesem niewymagającym nadzoru człowieka
- procesem, który poszukuje przyczyn problemów przedsiębiorstwa
- szybkim procesem
Modele eksploracji danych
- CRISP-DM (Cross-Industry Standard Process for Data Mining). Twórcami tego modelu są NCR Systems Engineering Copenhagen, SPSS/Integraf Solutions Ltd., Daimler-Chrysler oraz OHRA Verzekeringen Bank Group B.V.
Model ten składa się z poniższych etapów:
- Zrozumienie uwarunkowań biznesowych.
- Zrozumienie danych.
- Przygotowanie danych.
- Modelowanie – wybór technik, które będą użyte do utworzenia modelu eksploracji danych.
- Ewaluacja – ocena modelu, jego testowanie i ponowne przejrzenie jego konstrukcji.
- Wdrożenie.
- SEMMA (Sample, Explore, Modify, Model, Assess), zaprojektowany przez SAS Institute.
Składający się z pięciu etapów:
- Próbkowanie – wykorzystanie tylko części danych, zanim całość zostanie wprowadzona.
- Eksplorowanie – w celu głębszego poznania danych.
- Manipulacja – po etapie eksplorowanie, często potrzebna jest modyfikacja danych
- Modelowanie – czyli wybór techniki modelowania.
- Ocena.
- DMAIC (Define, Measure, Analyze, Improve, Control), oparty na strategii Six Sigma. Stworzony przez inżynierów z Instytutu Motoroli. Model skupia się na eliminacji strat i defektów, problemów z jakością w rożnych dziedzinach biznesu.
W skład którego wchodzi pięć etapów:
- Definiowanie – określenie celów i identyfikacja problemów biznesowych.
- Pomiar – zbierane są informacje o aktualnym stanie procesu.
- Analiza – zdefiniowanie krytycznych przyczyn problemów, uzasadnienie ich wpływu na proces.
- Usprawnienie – wprowadzanie odpowiednich rozwiązań.
- Kontrola.
- VcofDM (Virtuos Cycle of Data Mining) zaprojektowany przez M. J. A. Berrego i G. Linoffa, wybitych specjalistów dziedziny eksploracji danych.
Składa się on z czterech etapów:
- Zidentyfikowanie problemów biznesowych.
- Przekształcenie danych w informacje.
- Podjęcie działań.
- Mierzenie i ocena wyników
Metody eksploracji danych są dzielone na 6 podstawowych klas:
- Klastrowanie – głównym celem jest odnajdowanie w bazie danych skończonych zbiorów klas obiektów (klastrów) posiadających podobne cechy
- Odkrywanie klasyfikacji – odnajdywanie zależności między klasyfikacją danych obiektów a ich charakterystyką
- Odkrywanie wzorców sekwencji – odkrywanie wzorców zachowań czasowych
- Odkrywanie zbieżności w przebiegach czasowych – odnajdywanie podobieństw w czasowych przebiegach procesów
- Odkrywanie asocjacji – odkrywanie różnego rodzaju nieznanych współzależności w bazie danych
- Wykrywanie zmian i odchyleń – odnajdywanie różnic pomiędzy oczekiwanymi a aktualnymi wartościami danych
Wykorzystanie eksploracji danych:
- identyfikacja wzorców zachowań podczas zakupów klientów
- opracowanie planu dystrybucji towarów pomiędzy rynkami zbytu
- identyfikacja lojalnych klientów
- określanie prawidłowości rządzących zmianami cen akcji na podstawie ich dotychczasowych notowań
- wykrywanie powiązań pomiędzy charakterystykami demograficznymi klientów
- odnajdywanie współzależności pomiędzy różnymi wskaźnikami finansowymi
Bibliografia
- Olszak C. (2018), Analiza i ocena wybranych modeli eksploracji danych
- Ryznar Z. (1998), Istota i zadania hurtowni danych, Informatyka, nr 11
- Strykowski S. (1996), Eksploracja danych, Informatyka, nr 10
- Woźniak K. (2005), System informacji menedżerskiej jako instrument zarządzania strategicznego w firmie, praca doktorska, Akademia Ekonomiczna w Krakowie, Kraków