require "../inc/base.php"; PageInfo("Postupy používané při analýze dat",// Titulek stránky "Jirka Kosek", // Autor stránky "Postupy používané při analýze dat",// Popis "", // Klíčová slova "cs", // Jazyk stránky "", // Alternativní jazyky "internetove-zdroje-seu.php", // Předchozí stránka "statsoft.php", // Následující stránka "index.php" // Stránka s obsahem ); PageHead(); ?>
Analýza dat není v dnešní době spojena pouze se statistickými metodami. Často jsou používány klasifikační stromy či neuronové sítě. Tyto postupy bývají souhrnně označovány jako prostředky pro "data mining", tzn. pro získávání znalostí z dat.
Pokud jde o programové vybavení, pak základem jsou statistické programové systémy (např. SPSS, STATISTICA). Spolu s nimi jsou v poslední době nabízeny specializované produkty, zaměřené na rozhodovací stromy (Answer Tree se systémem SPSS) či na neuronové sítě (Neural Connection s SPSS, Neural Networks se systémem STATISTICA). Dalšími typy softwarového vybavení, do nichž jsou integrovány metodologie "data mining", jsou relační databázové systémy, systémy na podporu rozhodování (DSS -- Decision Support Systems) a manažerské informační systémy (EIS -- Executive Information Systems).
Postupy pro "data mining" jsou využívány například při průzkumech trhu a dále v bankovních a finančních organizacích (k modelování a předpovídání podvodů, k ohodnocení rizika, k analýze trendů), v maloobchodě (zjišťování asociací), zdravotnictví (jednak v oblasti administrativy, např. pojištění, jednak ke stanovení diagnózy a způsobu léčby), ve výrobních podnicích (řízení jakosti), energetickém průmyslu, telekomunikacích aj.
Existují jednak různé typy úloh, které je možno řešit, jednak různé postupy, které lze při řešení použít. Základní klasifikace je uvedena v následující tabulce.
Úloha | Metoda |
---|---|
Klasifikace |
Diskriminační analýza Logistická regresní analýza Klasifikační (rozhodovací) stromy Neuronové sítě (algoritmus "back propagation") |
Odhady hodnot vysvětlované proměnné |
Lineární regresní analýza Nelineární regresní analýza Neuronové sítě (RBF -- "radial basis function") |
Segmentace (shlukování) |
Shluková analýza Genetické algoritmy Neuronové shlukování (Kohonenovy mapy) |
Analýza vztahů | Asociační algoritmus pro odvozování pravidel typu If X, then Y |
Predikce v časových řadách |
Boxova-Jenkinsova metodologie Neuronové sítě ("recurrent back propagation") |
Detekce odchylek |
Vizualizace Statistické postupy |
Při klasifikaci a odhadech hodnot máme u určitých objektů k dispozici hodnoty vysvětlujících proměnných a hodnotu vysvětlované proměnné. Cílem je analyzovat vliv vysvětlujících proměnných na proměnnou vysvětlovanou tak, abychom pro objekt s neznámou hodnotou vysvětlované proměnné mohli tuto hodnotu odhadnout. Z hlediska terminologie neuronových sítí jde o "supervised learning". Stejný princip se používá též při predikci v časových řadách.
Při segmentaci (shlukování) jde o rozdělení datového souboru do skupin, čímž jsou vytvářeny shluky objektů. Vhodný počet skupin je obvykle zjišťován v průběhu analýzy dat. Protože nemáme dopředu k dispozici informaci o zařazení objektu do určitého shluku, je tento postup označován jako "unsupervised learning".
Při analýze vztahů jsou pomocí asociačního algoritmu získávána pravidla, tj. implikace typu IF (logická kombinace fakt) THEN fakt, přičemž fakt je elementární logický výrok. Je zjišťováno, kolik procent z určité logické kombinace fakt (antecedentu) implikuje fakt na pravé straně pravidla (consequent) a kolik procent záznamů se vyskytuje v této sociaci.
Detekce odchylek může být prováděna pomocí grafu,
v němž jsou buď zobrazeny původní (zjištěné) hodnoty (korelační graf
XY) nebo statistické charakteristiky souboru (krabičkový graf). Ze
statistických postupů lze uvést například pravidlo šesti sigma
(hodnoty by se měly nacházet v intervalu <>, kde
je aritmetický průměr
a σ směrodatná odchylka), nebo vyhledávání odlehlých pozorování
na základě kvartilů (za odchylky jsou považovány hodnoty větší než
součet horního kvartilu a jeden a půl násobku kvartilového rozpětí,
resp. menší než hodnota získaná odečtením jeden a půl násobku
kvartilového rozpětí od dolního kvartilu).
Základem pro analýzu dat je vytvoření modelu, který reprezentuje množinu dat. Existují různé techniky modelování, v rámci nichž máme k dispozici velké množství rozdílných přístupů.
Cílem modelování je v tomto případě vytvoření stromové struktury. Existuje řada různých algoritmů, jako příklady lze uvést CART, CLS, ID3, C4.5, AID, TREEDISC, QUEST a CHAID (Chi-Square Automatic Interaction Detection) pro kategoriální data. Tyto algoritmy je možné kombinovat. Lze například vytipovat rizikové skupiny pro vysoký krevní tlak na základě výšky, věku a hmotnosti, nebo rizikové skupiny pro problémy se splácením úvěru na základě pohlaví, věku, rodinného stavu, délky zaměstnání a vlastnictví auta.
Algoritmus CART je založen na tom, že z každého uzlu, který není konečný (poslední), vycházejí dvě větve (ostatní metody připouštějí více větví, přičemž maximální počet je dán počtem kategorií proměnné, která slouží jako prediktor). Postup při vytváření modelu lze rozdělit do tří kroků.
Genetické algoritmy jsou metodou kombinatorické optimalizace založené na podobnosti s procesy v biologickém vývoji. Základní myšlenka spočívá v tom, že v evolučním vývoji přežívají pouze nejodolnější druhy. Aplikování této myšlenky obvykle zahrnuje optimalizaci modelu dat použitím genetických metod za účelem získání nejvhodnějšího modelu. Uvedený postup je často kombinován s neuronovými sítěmi.
Tyto algoritmy jsou vhodným nástrojem pro shlukování dat. Jestliže chceme například rozdělit data do tří skupin, postupujeme ve dvou fázích.
Základem je koncept umělého neuronu, který napodobuje činnost neuronu v lidském mozku. Použití neuronových sítí je rozšířeno například pro predikce na finančních trzích.
V neuronových sítích mnoho vstupů generuje výstup, který je nelineární funkcí váženého součtu těchto vstupů. Váhy přiřazené každému ze vstupů jsou získávány na základě procesu učení, kdy jsou generované výstupy porovnávány s tzv. cílovými výstupy (známými hodnotami). Získané odchylky mezi známými hodnotami a získanými výstupy slouží jako zpětná vazba pro úpravu vah.
Neuronová síť může obsahovat skryté úrovně, kdy vstupy ovlivňují reakci tzv. uzlů, které teprve mají konečný vliv na hodnotu výstupů. Existuje mnoho přístupů k nalezení počtu skrytých uzlů a k úpravě vah v procesu učení.
Jak již bylo zmíněno v úvodu, prostředky pro analýzu dat jsou často integrovány do databázových a informačních systémů. Jsou nástrojem pro využití datových skladů (data warehousing) a součástí analytického zpracování (OLAP -- On-line Analytical Processing).
Vývoj se bude zřejmě ubírat cestou kombinování jednotlivých technologií za účelem získání optimálních přístupů pro různé typy datových souborů. Může jít například o spojení genetických a neuronových algoritmů s rozhodovacími stromy.
Již dnes se můžeme v literatuře setkat s pojmem hybridní systém ve smyslu kombinování různých algoritmů. V článku [2] je na příkladu sledování potíží při splácení úvěru použita kombinace logistické diskriminační analýzy, klasifikačního stromu a neuronové sítě.
[1] Answer Tree 1.0 User’s Guide. SPSS Inc., 1998.
[2] Arminger, G. -- Enache, D. -- Bonne, T.: Analyzing Credit Risk Data: A Comparison of Logistic Discrimination, Classification Tree Analysis, and Feedforward Networks. Computational Statistics, 12 (1997), No. 2, 293-310.
[3] Bigus, J. P.: Data Mining with Neural Networks. McGraw-Hill, 1996.
[4] Cabena, P. -- Hadjinian, P. -- Stadler, R. -- Verhees, J. -- Zanasi. A.: Discovering Data Mining -- From Concept to Implementation. Prentice Hall PTR, New Jersey, 1998.
[5] Deco, G. -- Obradovic, D.: An Information-Theoretic Approach to Neural Computing. Springer-Verlag, New York, 1996.
[6] Delgado, A. -- Puigjaner, L. -- Sanjeevan, K. - Sole, I.: Hybrid System: Neural Networks and Genetic Algorithms Applied in Nonlinear Regression and Time Series Forecasting. COMPSTAT'96 -- Proceedings in Computational Statistics (Ed. Prat, A.), Physica-Verlag Heidelberg, 1996.
[7] Fanta, J.: Neural Connection 1.0 -- Modelování pomocí neuronových sítí. PC World, 1997, No. 4, 58-60.
[8] Groth, R.: Data Mining A hands-On Approach for Business Professionals. Prentice Hall PTR, New Jersey, 1998.
[9] Haykin, S.: Neural Networks - A Comprehensive Foundation. Macmillan College Publishing Company - New York, Maxwell Macmillan Canda -- Toronto, 1994.
[10] Hornik, K.: Neural Networks: More than 'Statistics for Amateurs'? COMPSTAT'94 - Proceedings in Computational Statistics (Ed. Dutter, R. And Grossmann, W.), Physica-Verlag Heidelberg, 1994.
[11] Klaschka, J. -- Antoch, J.: Jak rychle pěstovat stromy. ROBUST’96, JČMF, Praha, 1997.
[12] Mangeas, M. -- Muller, C.: How to Find Suitable Parametric Models using Genetic Algorithms. Application to Feedforward Neural Networks. COMPSTAT’96 - Proceedings in Computational Statistics (Ed. Prat, A.), Physica-Verlag Heidelberg, 1996.
[13] Müller, P. -- Insua, D. R.: Posterior Simulation for Feed Forward Neural Network Models. COMPSTAT’96 - Proceedings in Computational Statistics (Ed. Prat, A.), Physica-Verlag Heidelberg, 1996.
[14] Rigal, A. D.: Modelling Time Series Using Neural Networks. COMPSTAT - Proceedings in Computational Statistics, Short Communications and Posters. IACR -- Rothamsted, Harpenden, 1998, 23-24.
[15] STATISTICA Neural Networks. StatSoft, Inc., 1998.
[16] Warner, B. - Misra, M.: Understanding Neural Networks as Statistical Tools. The American Statistician, 50 (1996), No. 4, 284-292.
PageFoot(); ?>