夜间福利网站,免费动漫av,一级做a爰片久久毛片免费陪,夜夜骑首页,黄色毛片视频,插插插操操操,综合av色

數(shù)據挖掘的讀書筆記

時間:2024-06-27 13:28:27 美云 讀書筆記

數(shù)據挖掘的讀書筆記

  數(shù)據挖掘一般是指從大量的數(shù)據中通過算法搜索隱藏于其中信息的過程。數(shù)據挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。目前喲普與大數(shù)據時代的到來,數(shù)據挖掘在很多高等院校已經成為一門獨立的學科。下面是數(shù)據挖掘的相關讀書筆記。歡迎大家閱讀。

數(shù)據挖掘的讀書筆記

  數(shù)據挖掘的讀書筆記 1

  一、數(shù)據挖掘概念(即什么是數(shù)據挖掘)

  我們生活在數(shù)據時代,各行各業(yè)每天都產生巨大的數(shù)據。數(shù)據的爆炸式增長、廣泛可用和巨大數(shù)量使得我們的時代成為真正的數(shù)據時代。急需功能強大和通用的工具,以便從海量數(shù)據中發(fā)現(xiàn)有價值的信息,把這些數(shù)據轉換成有組織的、可利用的知識。這種需求導致了數(shù)據挖掘的誕生。

  數(shù)據挖掘實際上是從數(shù)據中挖掘知識,由以下步驟的迭代組成:

  (1)數(shù)據清理(消除噪聲和刪除不一致數(shù)據)

  (2)數(shù)據集成(多種數(shù)據源可以組合在一起)

  (3)數(shù)據選擇(從數(shù)據庫中提取與分析任務相關的數(shù)據)

  (4)數(shù)據變換(通過匯總或聚集操作,把數(shù)據變換和統(tǒng)一成適合挖掘的形式)

  (5)數(shù)據挖掘(基本步驟,使用智能方法提取數(shù)據模式)

  (6)模式評估(根據某種興趣度度量,識別代表知識的真正有趣的模式)

  (7)知識表示(使用可視化和知識表示技術,向用戶提供挖掘的知識) 關系數(shù)據庫是數(shù)據挖掘最常見、最豐富的信息源,因此它是我們數(shù)據挖掘研究研究的一種主要數(shù)據形式。

  二、數(shù)據挖掘技術(即怎樣進行數(shù)據挖掘)

  1、可以挖掘什么類型的模式 特征化與區(qū)分、頻繁模式、關聯(lián)和相關性挖掘,分類與回歸,聚類分析,離群點分析。 數(shù)據挖掘可以被用來進行市場分析和管理、風險分析和管理、缺陷分析和管理等。

  2、使用什么技術

  1)首先要認識數(shù)據,一個數(shù)據對象代表一個實體,又稱樣本、實例、數(shù)據點或對象。 屬性是一個數(shù)據字段,表示數(shù)據對象的一個特征,又稱維、特征和變量。

  2)數(shù)據描述 中心趨勢度量:均值、中位數(shù)和眾數(shù) 度量數(shù)據散布:極差、四分位數(shù)、方差、標準差和四分位數(shù)極差 通過基于像素的可視化技術等清晰有效的表達數(shù)據

  3)進行數(shù)據預處理,包括數(shù)據變換與數(shù)據離散化。 數(shù)據變換策略:光滑、屬性構造、聚集、規(guī)范化、離散化、由標稱數(shù)據產生概念分層 數(shù)據離散化策略:分箱、直方圖分析、聚類決策樹和相關分析

  4)然后需要建立數(shù)據倉庫進行處理,數(shù)據倉庫:是一種數(shù)據庫,它允許將各種應用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據分析提供堅實的平臺,對信息處理提供支持。數(shù)據倉庫的構建需要數(shù)據集成、數(shù)據清洗和數(shù)據統(tǒng)一。

  5)聯(lián)機分析處理可以,在使用多維數(shù)據模型的數(shù)據倉庫或數(shù)據集市上進行,使用數(shù)據立方體結構,OLAP操作可以有效的實現(xiàn)。

  數(shù)據立方體計算的一般策略: 排序、散列和分組 同時聚集和緩存中間結果

  當存在多個子女方體時,由最小的子女聚集 可以使用先驗剪枝方法有效的'計算冰山立方體

  數(shù)據立方體計算方法: 多路數(shù)組聚集,基于稀疏數(shù)組的、自底向上的、共享計算的物化整個數(shù)據立方體 BUC,通過探查有效的自頂向下計算次序和排序計算冰山立方體 Star-Cubing,使用星樹結構,集成自頂向下和自底向上計算,計算冰山立方體 外殼片段立方體,通過僅預計算劃分的立方體外殼片段,支持進行高維OLAP

  6)挖掘頻繁模式和關聯(lián)規(guī)則 頻繁項集挖掘方法: Apriori算法(通過限制候選產生發(fā)現(xiàn)頻繁項集),由頻繁項集產生關聯(lián)規(guī)則,提高Apriori算法的效率,挖掘頻繁項集的模式增長方法,使用垂直數(shù)據格式挖掘頻繁項集,挖掘閉模式和極大模式

  數(shù)據挖掘的讀書筆記 2

  1、數(shù)據挖掘要解決的問題

  可伸縮(算法在處理各種規(guī)模的數(shù)據時都有很好的性能。隨著數(shù)據的增大,效率不會下降很快。)

  高維性(簡單的說就是多維數(shù)據的意思。平時我們經常接觸的是一維數(shù)據或者可以寫成表形式的二維數(shù)據,高維數(shù)據也可以類推,不過維數(shù)較高的時候,直觀表示很難。)

  異種數(shù)據和復雜數(shù)據

  數(shù)據的所有權與分布(分布式數(shù)據挖掘:應付分布式海量數(shù)據的現(xiàn)代方法)

  非傳統(tǒng)的分析(傳統(tǒng)方法:基于一種假設-檢驗模式;數(shù)據挖掘分析-時機性樣本,而不是隨機樣本)

  2、數(shù)據挖掘任務

  1)預測任務(目標變量/因變量:被預測的屬性;說明變量/自變量:用來做預測的屬性)

  2)描述任務

  A預測建模:分類-預測離散的.目標變量和回歸-預測連續(xù)的目標變量

  B關聯(lián)分析

  C聚類分析

  D異常檢測(識別其特征顯著不同于其他數(shù)據的觀測值。這樣的觀測值稱為異常點或離群點)

  3、屬性的四種類型

  1)標稱

  2)序數(shù)

  3)區(qū)間

  4)比率

  (布爾變量:Boolean Variable (布爾型變量) 是有兩種邏輯狀態(tài)的變量,它包含兩個值:真和假。如果在表達式中使用了布爾型變量,那么將根據變量值的真假而賦予整型值1或0。)

【數(shù)據挖掘的讀書筆記】相關文章:

數(shù)據挖掘理論在數(shù)據采集中的運用03-16

數(shù)據挖掘專業(yè)就業(yè)方向09-27

數(shù)據挖掘崗位職責05-14

數(shù)據挖掘與企業(yè)營銷策略探究03-29

數(shù)據挖掘分析崗位職責04-20

數(shù)據挖掘在CRM中的應用分析03-22

數(shù)據挖掘技術在CRM中的應用03-22

基于聚類分析的數(shù)據挖掘方法03-08

淺談反病毒數(shù)據庫的數(shù)據分類挖掘論文02-19

數(shù)據挖掘論文參考文獻范文11-20