1.墓于粗糙集( Rough Set)理論的約簡(jiǎn)方法
粗糙集理論是一種研究不精確、不確定性知識的數學(xué)工具。目前受到了KDD的廣泛重視,利用粗糙集理論對數據進(jìn)行處理是一種十分有效的精簡(jiǎn)數據維數的方法。我們所處理的數據一般存在信息的含糊性(Vagueness)問(wèn)題。含糊性有三種:術(shù)語(yǔ)的模糊性,如高矮;數據的不確定性,如噪聲引起的;知識自身的不確定性,如規則的前后件間的依賴(lài)關(guān)系并不是完全可靠的。在KDD中,對不確定數據和噪聲干擾的處理是粗糙集方法的
2.基于概念樹(shù)的數據濃縮方法
在數據庫中,許多屬性都是可以進(jìn)行數據歸類(lèi),各屬性值和概念依據抽象程度不同可以構成一個(gè)層次結構,概念的這種層次結構通常稱(chēng)為概念樹(shù)。概念樹(shù)一般由領(lǐng)域專(zhuān)家提供,它將各個(gè)層次的概念按一般到特殊的順序排列。
3.信息論思想和普化知識發(fā)現
特征知識和分類(lèi)知識是普化知識的兩種主要形式,其算法基本上可以分為兩類(lèi):數據立方方法和面向屬性歸納方法。
普通的基于面向屬性歸納方法在歸納屬性的選擇上有一定的盲目性,在歸納過(guò)程中,當供選擇的可歸納屬性有多個(gè)時(shí),通常是隨機選取一個(gè)進(jìn)行歸納。事實(shí)上,不同的屬性歸納次序獲得的結果知識可能是不同的,根據信息論最大墑的概念,應該選用一個(gè)信息丟失最小的歸納次序。
4.基于統計分析的屬性選取方法
我們可以采用統計分析中的一些算法來(lái)進(jìn)行特征屬性的選取,比如主成分分析、逐步回歸分析、公共因素模型分析等。這些方法的共同特征是,用少量的特征元組去描述高維的原始知識基。
5.遺傳算法〔GA, Genetic Algo}thrn})
遺傳算法是一種基于生物進(jìn)化論和分子遺傳學(xué)的全局隨機搜索算法。遺傳算法的基本思想是:將問(wèn)題的可能解按某種形式進(jìn)行編碼,形成染色體。隨機選取N個(gè)染色體構成初始種群。再根據預定的評價(jià)函數對每個(gè)染色體計算適應值。選擇適應值高的染色體進(jìn)行復制,通過(guò)遺傳運算(選擇、交叉、變異)來(lái)產(chǎn)生一群新的更適應環(huán)境的染色體,形成新的種群。這樣一代一代不斷繁殖進(jìn)化,最后收斂到一個(gè)最適合環(huán)境的個(gè)體上,從而求得問(wèn)題的最優(yōu)解。遺傳算法應用的關(guān)鍵是適應度函數的建立和染色體的描述。在實(shí)際應用中,通常將它和神經(jīng)網(wǎng)絡(luò )方法綜合使用。通過(guò)遺傳算法來(lái)搜尋出更重要的變量組合。
數據預處理(datapreprocessing)是指在主要的處理以前對數據進(jìn)行的一些處理。如對大部分地球物理面積性觀(guān)測數據在進(jìn)行轉換或增強處理之前,首先將不規則分布的測網(wǎng)經(jīng)過(guò)插值轉換為規則網(wǎng)的處理,以利于計算機的運算。另外,對于一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
數據預處理的方法:
1、數據清理
數據清理例程通過(guò)填寫(xiě)缺失的值、光滑噪聲數據、識別或刪除離群點(diǎn)并解決不一致性來(lái)“清理”數據。主要是達到如下目標:格式標準化,異常數據清除,錯誤糾正,重復數據的清除。
2、數據集成
數據集成例程將多個(gè)數據源中的數據結合起來(lái)并 統一存儲,建立數據倉庫的過(guò)程實(shí)際上就是數據集成。
3、數據變換
通過(guò)平滑聚集,數據概化,規范化等方式將數據轉換成適用于數據挖掘的形式。
4、數據歸約
數據挖掘時(shí)往往數據量非常大,在少量數據上進(jìn)行挖掘分析需要很長(cháng)的時(shí)間,數據歸約技術(shù)可以用來(lái)得到數據集的歸約表示,它小得多,但仍然接近于保持原數據的完整性,并結果與歸約前結果相同或幾乎相同。
1)數據清理
數據清理例程就是通過(guò)填寫(xiě)缺失值、光滑噪聲數據、識別或者刪除離群點(diǎn),并且解決不一致性來(lái)進(jìn)行“清理數據”。
2)數據集成
數據集成過(guò)程將來(lái)自多個(gè)數據源的數據集成到一起。
3)數據規約
數據規約是為了得到數據集的簡(jiǎn)化表示。數據規約包括維規約和數值規約。
4)數據變換
通過(guò)變換使用規范化、數據離散化和概念分層等方法,使得數據的挖掘可以在多個(gè)抽象層面上進(jìn)行。數據變換操作是提升數據挖掘效果的附加預處理過(guò)程。
數據預處理(datapreprocessing)是指在主要的處理以前對數據進(jìn)行的一些處理。
如對大部分地球物理面積性觀(guān)測數據在進(jìn)行轉換或增強處理之前,首先將不規則分布的測網(wǎng)經(jīng)過(guò)插值轉換為規則網(wǎng)的處理,以利于計算機的運算。另外,對于一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
數據預處理的方法:1、數據清理數據清理例程通過(guò)填寫(xiě)缺失的值、光滑噪聲數據、識別或刪除離群點(diǎn)并解決不一致性來(lái)“清理”數據。主要是達到如下目標:格式標準化,異常數據清除,錯誤糾正,重復數據的清除。
2、數據集成數據集成例程將多個(gè)數據源中的數據結合起來(lái)并 統一存儲,建立數據倉庫的過(guò)程實(shí)際上就是數據集成。3、數據變換通過(guò)平滑聚集,數據概化,規范化等方式將數據轉換成適用于數據挖掘的形式。
4、數據歸約數據挖掘時(shí)往往數據量非常大,在少量數據上進(jìn)行挖掘分析需要很長(cháng)的時(shí)間,數據歸約技術(shù)可以用來(lái)得到數據集的歸約表示,它小得多,但仍然接近于保持原數據的完整性,并結果與歸約前結果相同或幾乎相同。
一、數據挖掘工具分類(lèi)數據挖掘工具根據其適用的范圍分為兩類(lèi):專(zhuān)用挖掘工具和通用挖掘工具。
專(zhuān)用數據挖掘工具是針對某個(gè)特定領(lǐng)域的問(wèn)題提供解決方案,在涉及算法的時(shí)候充分考慮了數據、需求的特殊性,并作了優(yōu)化。對任何領(lǐng)域,都可以開(kāi)發(fā)特定的數據挖掘工具。
例如,IBM公司的AdvancedScout系統針對NBA的數據,幫助教練優(yōu)化戰術(shù)組合。特定領(lǐng)域的數據挖掘工具針對性比較強,只能用于一種應用;也正因為針對性強,往往采用特殊的算法,可以處理特殊的數據,實(shí)現特殊的目的,發(fā)現的知識可靠度也比較高。
通用數據挖掘工具不區分具體數據的含義,采用通用的挖掘算法,處理常見(jiàn)的數據類(lèi)型。通用的數據挖掘工具不區分具體數據的含義,采用通用的挖掘算法,處理常見(jiàn)的數據類(lèi)型。
例如,IBM公司Almaden研究中心開(kāi)發(fā)的QUEST系統,SGI公司開(kāi)發(fā)的MineSet系統,加拿大SimonFraser大學(xué)開(kāi)發(fā)的DBMiner系統。通用的數據挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來(lái)挖掘都由用戶(hù)根據自己的應用來(lái)選擇。
二、數據挖掘工具選擇需要考慮的問(wèn)題數據挖掘是一個(gè)過(guò)程,只有將數據挖掘工具提供的技術(shù)和實(shí)施經(jīng)驗與企業(yè)的業(yè)務(wù)邏輯和需求緊密結合,并在實(shí)施的過(guò)程中不斷的磨合,才能取得成功,因此我們在選擇數據挖掘工具的時(shí)候,要全面考慮多方面的因素,主要包括以下幾點(diǎn):(1)可產(chǎn)生的模式種類(lèi)的數量:分類(lèi),聚類(lèi),關(guān)聯(lián)等(2)解決復雜問(wèn)題的能力(3)操作性能(4)數據存取能力(5)和其他產(chǎn)品的接口三、數據挖掘工具介紹:1.QUESTQUEST是IBM公司Almaden研究中心開(kāi)發(fā)的一個(gè)多任務(wù)數據挖掘系統,目的是為新一代決策支持系統的應用開(kāi)發(fā)提供高效的數據開(kāi)采基本構件。系統具有如下特點(diǎn):提供了專(zhuān)門(mén)在大型數據庫上進(jìn)行各種開(kāi)采的功能:關(guān)聯(lián)規則發(fā)現、序列模式發(fā)現、時(shí)間序列聚類(lèi)、決策樹(shù)分類(lèi)、遞增式主動(dòng)開(kāi)采等。
各種開(kāi)采算法具有近似線(xiàn)性計算復雜度,可適用于任意大小的數據庫。算法具有找全性,即能將所有滿(mǎn)足指定類(lèi)型的模式全部尋找出來(lái)。
為各種發(fā)現功能設計了相應的并行算法。2.MineSetMineSet是由SGI公司和美國Standford大學(xué)聯(lián)合開(kāi)發(fā)的多任務(wù)數據挖掘系統。
MineSet集成多種數據挖掘算法和可視化工具,幫助用戶(hù)直觀(guān)地、實(shí)時(shí)地發(fā)掘、理解大量數據背后的知識。MineSet有如下特點(diǎn):MineSet以先進(jìn)的可視化顯示方法聞名于世。
支持多種關(guān)系數據庫。可以直接從Oracle、Informix、Sybase的表讀取數據,也可以通過(guò)SQL命令執行查詢(xún)。
多種數據轉換功能。在進(jìn)行挖掘前,MineSet可以去除不必要的數據項,統計、集合、分組數據,轉換數據類(lèi)型,構造表達式由已有數據項生成新的數據項,對數據采樣等。
操作簡(jiǎn)單、支持國際字符、可以直接發(fā)布到Web。3.DBMinerDBMiner是加拿大SimonFraser大學(xué)開(kāi)發(fā)的一個(gè)多任務(wù)數據挖掘系統,它的前身是DBLearn。
該系統設計的目的是把關(guān)系數據庫和數據開(kāi)采集成在一起,以面向屬性的多級概念為基礎發(fā)現各種知識。DBMiner系統具有如下特色:能完成多種知識的發(fā)現:泛化規則、特性規則、關(guān)聯(lián)規則、分類(lèi)規則、演化知識、偏離知識等。
綜合了多種數據開(kāi)采技術(shù):面向屬性的歸納、統計分析、逐級深化發(fā)現多級規則、元規則引導發(fā)現等方法。提出了一種交互式的類(lèi)SQL語(yǔ)言——數據開(kāi)采查詢(xún)語(yǔ)言DMQL。
能與關(guān)系數據庫平滑集成。實(shí)現了基于客戶(hù)/服務(wù)器體系結構的Unix和PC(Windows/NT)版本的系統。
4.IntelligentMiner由美國IBM公司開(kāi)發(fā)的數據挖掘軟件IntelligentMiner是一種分別面向數據庫和文本信息進(jìn)行數據挖掘的軟件系列,它包括和。可以挖掘包含在數據庫、數據倉庫和數據中心中的隱含信息,幫助用戶(hù)利用傳統數據庫或普通文件中的結構化數據進(jìn)行數據挖掘。
它已經(jīng)成功應用于市場(chǎng)分析、詐騙行為監測及客戶(hù)聯(lián)系管理等;允許企業(yè)從文本信息進(jìn)行數據挖掘,文本數據源可以是文本文件、Web頁(yè)面、電子郵件、LotusNotes數據庫等等。5.SASEnterpriseMiner這是一種在我國的企業(yè)中得到采用的數據挖掘工具,比較典型的包括上海寶鋼配礦系統應用和鐵路部門(mén)在春運客運研究中的應用。
SASEnterpriseMiner是一種通用的數據挖掘工具,按照"抽樣--探索--轉換--建模--評估"的方法進(jìn)行數據挖掘。可以與SAS數據倉庫和OLAP集成,實(shí)現從提出數據、抓住數據到得到解答的"端到端"知識發(fā)現。
6.是一個(gè)開(kāi)放式數據挖掘工具,曾兩次獲得英國政府SMART創(chuàng )新獎,它不但支持整個(gè)數據挖掘流程,從數據獲取、轉化、建模、評估到最終部署的全部過(guò)程,還支持數據挖掘的行業(yè)標準--CRISP-DM。Clementine的可視化數據挖掘使得"思路"分析成為可能,即將集中精力在要解決的問(wèn)題本身,而不是局限于完成一些技術(shù)性工作(比如編寫(xiě)代碼)。
提供了多種圖形化技術(shù),有助理解數據間的關(guān)鍵性聯(lián)系,指導用戶(hù)以最便捷的途徑找到問(wèn)題的最終解決法。7.數據庫廠(chǎng)商集成的挖掘工具SQLServer2000包含由Microsoft研究院開(kāi)發(fā)的兩種數據挖掘算法:。
在數據分析之前,我們通常需要先將數據標準化(normalization),利用標準化后的數據進(jìn)行數據分析。數據標準化也就是統計數據的指數化。數據標準化處理主要包括數據同趨化處理和無(wú)量綱化處理兩個(gè)方面。
數據同趨化處理主要解決不同性質(zhì)數據問(wèn)題,對不同性質(zhì)指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質(zhì),使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。
數據無(wú)量綱化處理主要解決數據的可比性。去除數據的單位限制,將其轉化為無(wú)量綱的純數值,便于不同單位或量級的指標能夠進(jìn)行比較和加權。
數據標準化的方法有很多種,常用的有“最小—最大標準化”、“Z-score標準化”和“按小數定標標準化”等。經(jīng)過(guò)上述標準化處理,原始數據均轉換為無(wú)量綱化指標測評值,即各指標值都處于同一個(gè)數量級別上,可以進(jìn)行綜合測評分析。
一、Min-max 標準化
min-max標準化方法是對原始數據進(jìn)行線(xiàn)性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個(gè)原始值x通過(guò)min-max標準化映射成在區間[0,1]中的值x',其公式為:
新數據=(原數據-極小值)/(極大值-極小值)
二、z-score 標準化
這種方法基于原始數據的均值(mean)和標準差(standard deviation)進(jìn)行數據的標準化。將A的原始值x使用z-score標準化到x'。
z-score標準化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。
新數據=(原數據-均值)/標準差
spss默認的標準化方法就是z-score標準化。
用Excel進(jìn)行z-score標準化的方法:在Excel中沒(méi)有現成的函數,需要自己分步計算,其實(shí)標準化的公式很簡(jiǎn)單。
步驟如下:
1.求出各變量(指標)的算術(shù)平均值(數學(xué)期望)xi和標準差si ;
2.進(jìn)行標準化處理:
zij=(xij-xi)/si
其中:zij為標準化后的變量值;xij為實(shí)際變量值。
3.將逆指標前的正負號對調。
標準化后的變量值圍繞0上下波動(dòng),大于0說(shuō)明高于平均水平,小于0說(shuō)明低于平均水平。
三、Decimal scaling小數定標標準化
這種方法通過(guò)移動(dòng)數據的小數點(diǎn)位置來(lái)進(jìn)行標準化。小數點(diǎn)移動(dòng)多少位取決于屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimal scaling標準化到x'的計算方法是:
x'=x/(10*j)
其中,j是滿(mǎn)足條件的最小整數。
例如 假定A的值由-986到917,A的最大絕對值為986,為使用小數定標標準化,我們用1000(即,j=3)除以每個(gè)值,這樣,-986被規范化為-0.986。
注意,標準化會(huì )對原始數據做出改變,因此需要保存所使用的標準化方法的參數,以便對后續的數據進(jìn)行統一的標準化。
除了上面提到的數據標準化外還有對數Logistic模式、模糊量化模式等等:
對數Logistic模式:新數據=1/(1+e^(-原數據))
模糊量化模式:新數據=1/2+1/2sin[派3.1415/(極大值-極小值)*(X-(極大值-極小值)/2) ] X為原數據
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:2.637秒