Analiza skupień jest to metoda klasyfikacji bez nadzoru, polegająca na grupowaniu elementów we względnie jednorodne klasy. Podstawą w grupowaniu większości algorytmów jest podobieństwo pomiędzy elementami.
Grupowanie polega na wyodrębnieniu pewnych klas, czy podzbiorów o podobnej specyfice elementów się w niej znajdujących.
Cele grupowania:
- Odkrycie nieznanej wcześniej struktury analizowania danych
- Uzyskanie w miarę jednorodnych przedmiotów badania
- Redukcja dużej liczby danych pierwotnych do kilku kategorii
- Reedukacja czasu analiz
- Redukcja nakładu pracy
- Możliwość porównania obiektów o wielu cechach
Metody grupowania są uzależnione od rodzaju danych, ich źródeł oraz oczekiwanych wyników.
Metodę skupień można podzielić na kategorie:
- Grupa metod k- średnich – polegająca na wstępnym podzieleniu populacji na z góry określoną ilość klas:
- Przypisanie punktów klastra do innego, który ma największe prawdopodobieństwo
- Powtarzanie algorytmu do momentu osiągnięcia zbieżności
- Wyliczenie nowych środków skupień – przeważnie jest to nowy środek danej klasy
- Wybór środków skupień
- Metody hierarchiczne – algorytm tworzy dla zbioru obiektów hierarchię klasyfikacji, zaczynając od takiego podziału, w którym każdy obiekt stanowi samodzielne skupienie, a kończąc na podziale, w którym wszystkie obiekty należą do jednego skupienia
- Metody rozmytej analizy skupień – polega na przydzieleniu elementu do więcej niż jednej kategorii
Zastosowanie:
- Eksploracja informacji – tworzenie podgrup
- Analiza danych – wybór jednorodnych grup i przydzielenie do nich określonych elementów
- Wyszukiwanie informacji – uporządkowanie i uproszenie dostępu do każdej informacji
- Grupowanie zadań, w taki sposób żeby się ze sobą komunikowały i w konsekwencji trafiły do tej samej grupy
Bibliografia:
- Jain, Murty and Flynn: Data Clustering: A Review, ACM Comp. Surv, 1999.
- A. D. Gordon: Classification. Chapman & Hall, London New York Washington, 1999
- P. Cichosz: Systemy uczące się. WNT, Warszawa, 2000.
- B. S. Everitt, S. Landau, M. Leese, Cluster analysis, London : Arnold ; New York : 2001.
- M. S. Aldenderfer, R. K. Blashfield, Cluster analysis (Quantitative Applications in the Social Sciences), Sage Publications, 1984.