Projekt BADAME byl ukončen na začátku roku 2001. Od té doby nejsou webové stránky aktualizovány, jsou přístupné jen jako historický archiv.
Vysoká škola ekonomická Předchozí Obsah Další Úvodní stránka Nápověda Hledej BADAME

Postupy používané při analýze dat

Hana Řezanková

1. Úvod

Analýza dat není v dnešní době spojena pouze se statistickými metodami. Často jsou používány klasifikační stromy či neuronové sítě. Tyto postupy bývají souhrnně označovány jako prostředky pro "data mining", tzn. pro získávání znalostí z dat.

Pokud jde o programové vybavení, pak základem jsou statistické programové systémy (např. SPSS, STATISTICA). Spolu s nimi jsou v poslední době nabízeny specializované produkty, zaměřené na rozhodovací stromy (Answer Tree se systémem SPSS) či na neuronové sítě (Neural Connection s SPSS, Neural Networks se systémem STATISTICA). Dalšími typy softwarového vybavení, do nichž jsou integrovány metodologie "data mining", jsou relační databázové systémy, systémy na podporu rozhodování (DSS -- Decision Support Systems) a manažerské informační systémy (EIS -- Executive Information Systems).

Postupy pro "data mining" jsou využívány například při průzkumech trhu a dále v bankovních a finančních organizacích (k modelování a předpovídání podvodů, k ohodnocení rizika, k analýze trendů), v maloobchodě (zjišťování asociací), zdravotnictví (jednak v oblasti administrativy, např. pojištění, jednak ke stanovení diagnózy a způsobu léčby), ve výrobních podnicích (řízení jakosti), energetickém průmyslu, telekomunikacích aj.

2. Typy úloh a metody pro jejich řešení

Existují jednak různé typy úloh, které je možno řešit, jednak různé postupy, které lze při řešení použít. Základní klasifikace je uvedena v následující tabulce.

Úloha Metoda
Klasifikace Diskriminační analýza
Logistická regresní analýza
Klasifikační (rozhodovací) stromy
Neuronové sítě (algoritmus "back propagation")
Odhady hodnot vysvětlované proměnné Lineární regresní analýza
Nelineární regresní analýza
Neuronové sítě (RBF -- "radial basis function")
Segmentace (shlukování) Shluková analýza
Genetické algoritmy
Neuronové shlukování (Kohonenovy mapy)
Analýza vztahů Asociační algoritmus pro odvozování pravidel typu If X, then Y
Predikce v časových řadách Boxova-Jenkinsova metodologie
Neuronové sítě ("recurrent back propagation")
Detekce odchylek Vizualizace
Statistické postupy

Při klasifikaci a odhadech hodnot máme u určitých objektů k dispozici hodnoty vysvětlujících proměnných a hodnotu vysvětlované proměnné. Cílem je analyzovat vliv vysvětlujících proměnných na proměnnou vysvětlovanou tak, abychom pro objekt s neznámou hodnotou vysvětlované proměnné mohli tuto hodnotu odhadnout. Z hlediska terminologie neuronových sítí jde o "supervised learning". Stejný princip se používá též při predikci v časových řadách.

Při segmentaci (shlukování) jde o rozdělení datového souboru do skupin, čímž jsou vytvářeny shluky objektů. Vhodný počet skupin je obvykle zjišťován v průběhu analýzy dat. Protože nemáme dopředu k dispozici informaci o zařazení objektu do určitého shluku, je tento postup označován jako "unsupervised learning".

Při analýze vztahů jsou pomocí asociačního algoritmu získávána pravidla, tj. implikace typu IF (logická kombinace fakt) THEN fakt, přičemž fakt je elementární logický výrok. Je zjišťováno, kolik procent z určité logické kombinace fakt (antecedentu) implikuje fakt na pravé straně pravidla (consequent) a kolik procent záznamů se vyskytuje v této sociaci.

Detekce odchylek může být prováděna pomocí grafu, v němž jsou buď zobrazeny původní (zjištěné) hodnoty (korelační graf XY) nebo statistické charakteristiky souboru (krabičkový graf). Ze statistických postupů lze uvést například pravidlo šesti sigma (hodnoty by se měly nacházet v intervalu <>, kde je aritmetický průměr a σ směrodatná odchylka), nebo vyhledávání odlehlých pozorování na základě kvartilů (za odchylky jsou považovány hodnoty větší než součet horního kvartilu a jeden a půl násobku kvartilového rozpětí, resp. menší než hodnota získaná odečtením jeden a půl násobku kvartilového rozpětí od dolního kvartilu).

3.Techniky analýzy dat

Základem pro analýzu dat je vytvoření modelu, který reprezentuje množinu dat. Existují různé techniky modelování, v rámci nichž máme k dispozici velké množství rozdílných přístupů.

3.1 Klasifikační (rozhodovací) stromy

Cílem modelování je v tomto případě vytvoření stromové struktury. Existuje řada různých algoritmů, jako příklady lze uvést CART, CLS, ID3, C4.5, AID, TREEDISC, QUEST a CHAID (Chi-Square Automatic Interaction Detection) pro kategoriální data. Tyto algoritmy je možné kombinovat. Lze například vytipovat rizikové skupiny pro vysoký krevní tlak na základě výšky, věku a hmotnosti, nebo rizikové skupiny pro problémy se splácením úvěru na základě pohlaví, věku, rodinného stavu, délky zaměstnání a vlastnictví auta.

Algoritmus CART je založen na tom, že z každého uzlu, který není konečný (poslední), vycházejí dvě větve (ostatní metody připouštějí více větví, přičemž maximální počet je dán počtem kategorií proměnné, která slouží jako prediktor). Postup při vytváření modelu lze rozdělit do tří kroků.

  1. Výběr proměnných z datového souboru. Uživatel zvolí proměnnou, jejíž hodnoty chce odhadovat (zda má člověk vysoký krevní tlak, zda bude mít problémy se splácením půjčky, zda si objedná časopis). Tato proměnná se nazývá vysvětlovaná. Dále zvolí vysvětlující proměnné, pomocí nichž má být odhad prováděn.
  2. Vytvoření skupin hodnot. Na základě statistických testů (chí-kvadrát) jsou pro každou vysvětlující proměnnou vytvořeny dvě skupiny hodnot. Podstatou testů je zjistit, pro které dvě skupiny existuje největší variabilita mezi skupinami a nejmenší variabilita uvnitř skupin. Jedná se o iterační proces.
  3. Vytvoření stromové struktury. Je zjištěna proměnná, která nejvíce přispívá k odhadu hodnot vysvětlované proměnné. Na jejím základě je vytvořena stromová struktura.

3.2 Genetické algoritmy

Genetické algoritmy jsou metodou kombinatorické optimalizace založené na podobnosti s procesy v biologickém vývoji. Základní myšlenka spočívá v tom, že v evolučním vývoji přežívají pouze nejodolnější druhy. Aplikování této myšlenky obvykle zahrnuje optimalizaci modelu dat použitím genetických metod za účelem získání nejvhodnějšího modelu. Uvedený postup je často kombinován s neuronovými sítěmi.

Tyto algoritmy jsou vhodným nástrojem pro shlukování dat. Jestliže chceme například rozdělit data do tří skupin, postupujeme ve dvou fázích.

  1. Můžeme začít náhodným seskupením dat. Představme si, že každý z těchto shluků má být vytvořen jako organismus. Genetický algoritmus má funkci vhodnosti, která určuje, zda množina dat je vhodná pro jeden z těchto tří organismů (shluků). Funkce může identifikovat, zda se určité datové množiny hodí lépe než jiné.
  2. Genetické algoritmy disponují operátory, které umožňují napodobovat procesy v přírodě: životní reprodukci, páření a přeměny (mutace). Jestliže je řádek dat v souboru zjištěn jako vhodný, přežívá a je kopírován do shluku. Pokud není vhodný, může být "pářen" s jinými řádky za účelem dosažení lepší shody.

3.3 Neuronové sítě

Základem je koncept umělého neuronu, který napodobuje činnost neuronu v lidském mozku. Použití neuronových sítí je rozšířeno například pro predikce na finančních trzích.

V neuronových sítích mnoho vstupů generuje výstup, který je nelineární funkcí váženého součtu těchto vstupů. Váhy přiřazené každému ze vstupů jsou získávány na základě procesu učení, kdy jsou generované výstupy porovnávány s tzv. cílovými výstupy (známými hodnotami). Získané odchylky mezi známými hodnotami a získanými výstupy slouží jako zpětná vazba pro úpravu vah.

Neuronová síť může obsahovat skryté úrovně, kdy vstupy ovlivňují reakci tzv. uzlů, které teprve mají konečný vliv na hodnotu výstupů. Existuje mnoho přístupů k nalezení počtu skrytých uzlů a k úpravě vah v procesu učení.

4. Závěr

Jak již bylo zmíněno v úvodu, prostředky pro analýzu dat jsou často integrovány do databázových a informačních systémů. Jsou nástrojem pro využití datových skladů (data warehousing) a součástí analytického zpracování (OLAP -- On-line Analytical Processing).

Vývoj se bude zřejmě ubírat cestou kombinování jednotlivých technologií za účelem získání optimálních přístupů pro různé typy datových souborů. Může jít například o spojení genetických a neuronových algoritmů s rozhodovacími stromy.

Již dnes se můžeme v literatuře setkat s pojmem hybridní systém ve smyslu kombinování různých algoritmů. V článku [2] je na příkladu sledování potíží při splácení úvěru použita kombinace logistické diskriminační analýzy, klasifikačního stromu a neuronové sítě.

Literatura:

[1] Answer Tree 1.0 User’s Guide. SPSS Inc., 1998.

[2] Arminger, G. -- Enache, D. -- Bonne, T.: Analyzing Credit Risk Data: A Comparison of Logistic Discrimination, Classification Tree Analysis, and Feedforward Networks. Computational Statistics, 12 (1997), No. 2, 293-310.

[3] Bigus, J. P.: Data Mining with Neural Networks. McGraw-Hill, 1996.

[4] Cabena, P. -- Hadjinian, P. -- Stadler, R. -- Verhees, J. -- Zanasi. A.: Discovering Data Mining -- From Concept to Implementation. Prentice Hall PTR, New Jersey, 1998.

[5] Deco, G. -- Obradovic, D.: An Information-Theoretic Approach to Neural Computing. Springer-Verlag, New York, 1996.

[6] Delgado, A. -- Puigjaner, L. -- Sanjeevan, K. - Sole, I.: Hybrid System: Neural Networks and Genetic Algorithms Applied in Nonlinear Regression and Time Series Forecasting. COMPSTAT'96 -- Proceedings in Computational Statistics (Ed. Prat, A.), Physica-Verlag Heidelberg, 1996.

[7] Fanta, J.: Neural Connection 1.0 -- Modelování pomocí neuronových sítí. PC World, 1997, No. 4, 58-60.

[8] Groth, R.: Data Mining A hands-On Approach for Business Professionals. Prentice Hall PTR, New Jersey, 1998.

[9] Haykin, S.: Neural Networks - A Comprehensive Foundation. Macmillan College Publishing Company - New York, Maxwell Macmillan Canda -- Toronto, 1994.

[10] Hornik, K.: Neural Networks: More than 'Statistics for Amateurs'? COMPSTAT'94 - Proceedings in Computational Statistics (Ed. Dutter, R. And Grossmann, W.), Physica-Verlag Heidelberg, 1994.

[11] Klaschka, J. -- Antoch, J.: Jak rychle pěstovat stromy. ROBUST’96, JČMF, Praha, 1997.

[12] Mangeas, M. -- Muller, C.: How to Find Suitable Parametric Models using Genetic Algorithms. Application to Feedforward Neural Networks. COMPSTAT’96 - Proceedings in Computational Statistics (Ed. Prat, A.), Physica-Verlag Heidelberg, 1996.

[13] Müller, P. -- Insua, D. R.: Posterior Simulation for Feed Forward Neural Network Models. COMPSTAT’96 - Proceedings in Computational Statistics (Ed. Prat, A.), Physica-Verlag Heidelberg, 1996.

[14] Rigal, A. D.: Modelling Time Series Using Neural Networks. COMPSTAT - Proceedings in Computational Statistics, Short Communications and Posters. IACR -- Rothamsted, Harpenden, 1998, 23-24.

[15] STATISTICA Neural Networks. StatSoft, Inc., 1998.

[16] Warner, B. - Misra, M.: Understanding Neural Networks as Statistical Tools. The American Statistician, 50 (1996), No. 4, 284-292.

Předchozí | Obsah | Další | Na začátek stránky | Úvodní stránka | Nápověda | Hledej | Změna kódování

Stránku pro vás připravil Jirka Kosek.
Dotazy a připomínky ke stránce směřujte na badame@vse.cz.
URL: http://badame.vse.cz
Poslední modifikace 21.07.2006 v 18:56.
Počet přístupů od 99.99.9999 je 0.

Stránka je součástí projektu Banka dat a modelů ekonomiky ČR
Tento projekt je realizován pomocí grantu Ministerstva školství, mládeže a tělovýchovy v rámci programu rozvoje informační infrastruktury vědy a výzkumu (Projekt LB98063).