第一篇:數(shù)據(jù)挖掘 二手車評估與預(yù)測
二手車的評估與預(yù)測
摘 要:面對著中國汽車行業(yè)未來的龐大市場和二手車市的放寬政策和對新機(jī)動(dòng)車輛上牌管制的限制,在二手車發(fā)展興盛的今天,二手車市場將要迎來新一輪的發(fā)展機(jī)遇和挑戰(zhàn),機(jī)遇是二手車在中國未來的汽車行業(yè)發(fā)展地位的日趨重要性,另一發(fā)面也提出了新的要求,這迫使二手車行業(yè)不得不整理出一套新的鑒定評估二手車的技術(shù),這套技術(shù)足以有效制定出該二手車的實(shí)際現(xiàn)存的價(jià)值和合理的價(jià)格,合理的價(jià)格也是推動(dòng)市場穩(wěn)步發(fā)展的導(dǎo)向。正確的二手車鑒定技術(shù)能夠使二手車行業(yè)更穩(wěn)健的發(fā)展,而目前在二手車市場上存在著二手評估車的盲目性、二手車信息的滯后性和交易雙方信息的不對等性等突出特點(diǎn),這不僅會(huì)對買二手車的人士造成經(jīng)濟(jì)上的損失,而且會(huì)讓這個(gè)行業(yè)很難走的更遠(yuǎn)或者出現(xiàn)道德危機(jī)。這就需要二手車評估技術(shù)的推陳出新,因此二手車的評估時(shí)刻影響著以后二手車市場的發(fā)展規(guī)模和前景,而作為4S店二手車的發(fā)展更是顯而易見,其特點(diǎn)是客戶信賴度更高,要求的技術(shù)更加全面,對車輛的鑒定也是有一套屬于自己的方法了理論。科學(xué)的二手車鑒定與評估方法是二手車市場健康發(fā)展的前提。
關(guān)鍵詞:二手車、二手車信息、評估方法、價(jià)值、決策樹 一 二手車市場的現(xiàn)狀
從整體局勢來講我國二手車市場目前存在的問題有①鑒定評估缺乏統(tǒng)一標(biāo)準(zhǔn);②誠信問題
(車輛檔案未實(shí)現(xiàn)數(shù)據(jù)共享,二手車交易市場不掌握車輛的檔案,消費(fèi)者難以從交易市場中獲取欲購車輛的購置、使用、維修、保險(xiǎn)理賠等檔案資料。);③售后服務(wù)不到位;④新車頻繁降價(jià),增加了二手車的經(jīng)營風(fēng)險(xiǎn);⑤二手車信貸的欠缺
從二手車自身的角度來講,品牌二手車目前會(huì)給傳統(tǒng)二手車市場帶來一定沖擊,這種沖擊是良性沖擊,是一種逼迫傳統(tǒng)二手車市場升級的有效方式,這源自于以下幾個(gè)因素:
一、傳統(tǒng)二手車市場名聲不好,消費(fèi)者購車時(shí)對車況總是有所顧慮,事故車坑害顧客的事件時(shí)有發(fā)生,出現(xiàn)糾紛后消費(fèi)者往往無人可找,相對而言品牌二手車有主機(jī)廠作保障、名聲較好,消費(fèi)者也能更信得過。
二、傳統(tǒng)二手車服務(wù)理念、服務(wù)態(tài)度、服務(wù)水平較差,基本上尚未脫離簡單粗暴現(xiàn)象,眾多消費(fèi)者在購車時(shí)往往容易被服務(wù)人員“嚇到”,當(dāng)然近兩年來情況有所好轉(zhuǎn),這完全得益于品牌二手車帶給人們的全新服務(wù)感受,使得傳統(tǒng)二手車經(jīng)營者不得不改善服務(wù)質(zhì)量。
三、售后保障全無,消費(fèi)者在傳統(tǒng)二手車市場購車,基本沒有任何售后保障,小問題不值得回來找商家,大問題商家肯定無解,而品牌認(rèn)證二手車的售后質(zhì)保策略則免去了眾多消費(fèi)者的憂慮,二手車也可以安心。
四、收車價(jià)格較低,有過銷售二手車經(jīng)歷的人往往都知道,傳統(tǒng)二手車市場的收車商戶報(bào)價(jià)都是非常低的,眾多售車人都感覺到自己車賣的并不滿意,當(dāng)前市場品牌二手車的收車價(jià)格一般都相對較高,并且品牌二手車經(jīng)營店還有4S店置換車源保障,車輛來源基本不成問題,還有一些二手車拍賣機(jī)構(gòu)的不斷出現(xiàn)也從中提升了二手車的銷售價(jià)值,和品牌二手車相比,傳統(tǒng)二手車商收車難,收到好車更難。隨著市面上大量車主到了車輛更新時(shí)期,收車難的問題從2009年下半年開始變的容易了許多。
同時(shí),隨著電子商務(wù)的飛速發(fā)展,為網(wǎng)上售車提供了現(xiàn)實(shí)基礎(chǔ),目前目前已有某些品牌的4S店在網(wǎng)上進(jìn)行售賣展示,信用好的二手車經(jīng)營主體開設(shè)網(wǎng)絡(luò)4S店進(jìn)行網(wǎng)上售車也成為可能。
總體看來,品牌二手車現(xiàn)階段引領(lǐng)著傳統(tǒng)二手車市場行業(yè)不斷突破自我,探求更高模式的二手車服務(wù)理念,在這個(gè)過程中肯定會(huì)對傳統(tǒng)二手車行業(yè)造成沖擊;品牌二手車之間的競爭短時(shí)間內(nèi)不會(huì)出現(xiàn),但是是可預(yù)見的事實(shí),未來的二手車市場將出現(xiàn)傳統(tǒng)二手車、品牌二手車以及電子商務(wù)二手車三方共存的經(jīng)營場面。至于輸贏得失則各有千秋,二手車經(jīng)營領(lǐng)域也必將細(xì)化,不同的經(jīng)營模式滿足不同的消費(fèi)主體,不同的經(jīng)營模式之間互有競爭,互有補(bǔ)充。
二手車的 二 二手車評級依據(jù)及目的
二手車評估工作和其他工作一樣,在評估是必須有正確科學(xué)的依據(jù),這樣才能得出正確的結(jié)論。二手車評估的依據(jù)是指評估工作所遵循和法律,法規(guī),經(jīng)濟(jì)行為文件以及其他參考資料。一般包括理論,行為依據(jù),法律依據(jù),產(chǎn)權(quán)依據(jù)和取價(jià)依據(jù)論等。
二手車評估的目的是未了正確反映二手車的價(jià)值及變動(dòng),為將要發(fā)生的經(jīng)濟(jì)行為提供公平的價(jià)值尺度,其目的的回答是為什么要對二手車進(jìn)行鑒定評估。同時(shí),他告訴二手車評估機(jī)構(gòu)市場在哪里,到哪里去尋找評估業(yè)務(wù)。在二手車評估市場,二手車評估的主要目的可分為兩大類:一類為變動(dòng)二手車產(chǎn)權(quán),另一類為不變動(dòng)二手車產(chǎn)權(quán)。
三 實(shí)證分析
(一)對樣本數(shù)據(jù)的說明
根據(jù)實(shí)際數(shù)據(jù)對二手車進(jìn)行分析,預(yù)測怎樣的二手車的接受程度高,更有發(fā)展情景。本文所使用的數(shù)據(jù)來源于老師提供的二手車數(shù)據(jù)。解釋變量包括6個(gè)變量buying into 購買時(shí)價(jià)格、maint into 維修保養(yǎng)價(jià)格、doors into 門的數(shù)量、persons into 容納人數(shù)、safety into 汽車安全性、lug_boot into 后備箱大小和1連續(xù)變量Class into 購買時(shí)可接受程度。各變量的定義如下: buying into 購買時(shí)價(jià)格 maint into 維修保養(yǎng)價(jià)格
Old Value New Value Value Label Old Value New Value Value Label
high 1 high high 1 high low 2 low low 2 low med 3 med med 3 med vhigh 4 vhigh vhigh 4 vhigh
doors into 門的數(shù)量 persons into 容納人數(shù)
Old Value New Value Value Label Old Value New Value Value Label 2doors 1 2doors 2persons 1 2persons 3doors 2 3doors 4persons 2 4persons 4doors 3 4doors more 3 more 5more 4 5more
safety into 汽車安全性 Class into 購買時(shí)可接受程度 Old Value New Value Value Label Old Value New Value Value Label
high 1 high acc 1 acc low 2 low good 2 good med 3 med unacc 3 unacc vgood 4 vgood
lug_boot into 后備箱大小 Old Value New Value Value Label
big 1 big med 2 med small 3 small
對Class into 購買時(shí)可接受程度與其他六個(gè)變量做相關(guān)性分析: 4003002001000vhighhighmedlowaccunacc4003002001000highvhighmedlowaccunacc40030020010002doors3doors4doors5moreaccunacc60040020002persons4personsmoreaccunaccsafety6004002000smallmedbigaccunacc10005000highmedlowaccunacc
結(jié)果表明汽車安全性高,安全性低幾乎沒有人會(huì)愿意買,后備箱的大小更傾向于中等,容納人數(shù)較多的更受歡迎,只能容納兩個(gè)人的幾乎沒有人又興趣,同時(shí)二手車的購買價(jià)格和維修保養(yǎng)價(jià)格過高人們的接受都會(huì)下降,對于汽車的門的需求沒有什么特別的要求。(二)CHAID 決策樹的實(shí)證分析
選擇最小父節(jié)點(diǎn)個(gè)案數(shù)為10,最小子節(jié)點(diǎn)個(gè)案數(shù)為5。模型摘要表:
樹形圖
使用CHAID方法,Class into(購買時(shí)可接受程度)是safety into(汽車安全性)的最佳預(yù)測變量,對于safety into(汽車安全性)較低,(汽車安全性)是對Class into(購買時(shí)可接受程度)唯一起作用的預(yù)測變量,對于安全性差的汽車是不會(huì)有人愿意買的,從圖像可以看出其下沒有任何子節(jié)點(diǎn),因而此節(jié)點(diǎn)被視為終端節(jié)點(diǎn)。對于安全性中等和較高的類別在通過容納人數(shù),購買時(shí)的價(jià)格,維修保養(yǎng)的價(jià)格,后備箱的大小以及汽車門的數(shù)量來進(jìn)行進(jìn)一步的劃分。從決策樹的最后一行節(jié)點(diǎn)68是容納人數(shù)為4個(gè)人,購買時(shí)價(jià)格較高,后備箱大小一般,維修保養(yǎng)價(jià)格不是特別高的情況下對于汽車門的數(shù)量為3的判斷不是特別的理想,但是模型所有的節(jié)點(diǎn)都已考慮進(jìn)去,故不能再進(jìn)行劃分,同理節(jié)點(diǎn)74也是。(三)模型評價(jià):
從收益圖表顯示該模型十分良好,從一端到另一端時(shí),積累收益率圖表將始終以0%開始且以100%結(jié)束。
指數(shù)圖表也表示該模型十分良好。累積指數(shù)圖表趨向于從100%以上開始,然后逐漸下降到100%。對于良好的模型,指數(shù)值應(yīng)正好從高于100%開始,在移動(dòng)過程中保持較高的穩(wěn)定水平,然后驟降至100%,對于未提供任何信息的模型,整個(gè)圖表的線將始終保持在100%左右。
同時(shí)從風(fēng)險(xiǎn)和分類表中輸出結(jié)果顯示,該模型的所預(yù)測類別的個(gè)案錯(cuò)誤率為2.5%,對二手車進(jìn)行錯(cuò)誤分類的“風(fēng)險(xiǎn)”為2.5%,同時(shí)分類表中的結(jié)果與風(fēng)險(xiǎn)估計(jì)一致。該表顯示模型對約97.5%的類別進(jìn)行了正確分類。故我們選擇的模型在大體上做出了正確的判斷。預(yù)測值
上表中的PredictedValue表示的是每個(gè)個(gè)案的因變量預(yù)測值,PredictedValue_1表示的是個(gè)案屬于購買時(shí)可接受程度非常好,PredictedValue_2表示的是個(gè)案屬于購買時(shí)可接受程度還好,PredictedValue_1表示的是個(gè)案屬于購買時(shí)可接受程度不好,PredictedValue_1表示的是個(gè)案屬于購買時(shí)可接受程度非常不好,對于預(yù)測值是在每個(gè)個(gè)案的終端節(jié)點(diǎn)具有最高個(gè)案比例的類別,故從截圖的一部分中可以看出對于第一個(gè)節(jié)點(diǎn),預(yù)測值為3(可接受程度還好),因?yàn)樗慕K端節(jié)點(diǎn)中有100%的個(gè)案的可接受程度還好,而對于第13個(gè)節(jié)點(diǎn)72%的個(gè)案屬于可接受程度非常好,28%認(rèn)為可接受程度并不怎么好,所以認(rèn)為第13個(gè)節(jié)點(diǎn)的可接受程度非常好。
四 二手車評價(jià)的意義以及前景
隨著二手的交易量的逐年的增多,規(guī)范的二手車市場發(fā)展才能加大舊車的交易量,指定合理的二手車的各種規(guī)范交易制度,才能為廣大群眾降低經(jīng)濟(jì)損失,使人們能夠真正認(rèn)可二手車,這樣才能從根本上促進(jìn)二手車市場的發(fā)展。
第二篇:數(shù)據(jù)挖掘與電子商務(wù)
數(shù)據(jù)挖掘與電子商務(wù)
姓名:龔洪虎
學(xué)號:X2009230111
[摘 要] 企業(yè)的競爭優(yōu)勢并不取決于信息的擁有量,而是取決于信息的處理利用能力。如何化信息優(yōu)勢為競爭優(yōu)勢,是企業(yè)制勝于市場的一個(gè)法寶。本文論述了一種信息處理利用的有效工具——數(shù)據(jù)挖掘方法及其在電子商務(wù)中的應(yīng)用。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 方法 電子商務(wù) 應(yīng)用
隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的成熟,傳統(tǒng)商務(wù)正經(jīng)歷一次重大變革,向電子商務(wù)全速挺進(jìn)。這種商業(yè)電子化的趨勢不僅為客戶提供了便利的交易方式和廣泛的選擇,同時(shí)也為商家提供了更加深入了解客戶需求信息和購物行為特征的可能性。數(shù)據(jù)挖掘技術(shù)作為電子商務(wù)的重要應(yīng)用技術(shù)之一,將為正確的商業(yè)決策提供強(qiáng)有力的支持和可靠的保證,是電子商務(wù)不可缺少的重要工具。
一、電子商務(wù)和數(shù)據(jù)挖掘簡介。
電子商務(wù)是指個(gè)人或企業(yè)通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動(dòng)。目前國內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購,網(wǎng)上銀行、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。電子商務(wù)正以其成本低廉、方便、快捷、安全、可靠、不受時(shí)間和空間的限制等突出優(yōu)點(diǎn)而逐步在全球流行。
數(shù)據(jù)挖掘(DataMining)是伴隨著數(shù)據(jù)倉庫技術(shù)的發(fā)展而逐步完善起來的。數(shù)據(jù)挖掘主要是為了幫助商業(yè)用戶處理大量存在的數(shù)據(jù),發(fā)現(xiàn)其后隱含的規(guī)律性,同時(shí)將其模型化,來完成輔助決策的作用。它要求從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中,提取人們事先不知道的但又是潛在有用的信息和知識。數(shù)據(jù)挖掘的過程有時(shí)也叫知識發(fā)現(xiàn)的過程。
而電子商務(wù)中的數(shù)據(jù)挖掘即Web挖掘,是利用數(shù)據(jù)挖掘技術(shù)從www的資源(即Web文檔)和行為(即We服務(wù))中自動(dòng)發(fā)現(xiàn)并提取感興趣的、有用的模式和隱含的信息,它是一項(xiàng)綜合技術(shù)涉及到Internet技術(shù)學(xué)、人工智能、計(jì)算機(jī)語言、信息學(xué)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域。
二、何謂數(shù)據(jù)挖掘及方法
確切地說,數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價(jià)值的信息或模式。它融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)。比較典型的數(shù)據(jù)挖掘方法有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析等。它們可以應(yīng)用到以客戶為中心的企業(yè)決策分析和管理的各個(gè)不同領(lǐng)域和階段。
1.關(guān)聯(lián)分析。關(guān)聯(lián)分析,即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,它能發(fā)現(xiàn)數(shù)據(jù)庫中形如”90%的顧客在一次購買活動(dòng)中購買商品A的同時(shí)購買商品B”之類的知識。
2.序列模式分析。序列模式分析和關(guān)聯(lián)分析相似,但側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如”在某一段時(shí)間內(nèi),顧客購買商品A,接著購買商品B,而后購買商品C,即序列A→B→C出現(xiàn)的頻度較高”之類的知識,序列模式分析描述的問題是:在給定交易序列數(shù)據(jù)庫中,每個(gè)序列是按照交易時(shí)間排列的一組交易集,挖掘序列函數(shù)作用在這個(gè)交易序列數(shù)據(jù)庫上,返回該數(shù)據(jù)庫中出現(xiàn)的高頻序列。在進(jìn)行序列模式分析時(shí),同樣也需要由用戶輸入最小置信度C和最小支持度S。
3.分類分析。設(shè)有一個(gè)數(shù)據(jù)庫和一組具有不同特征的類別(標(biāo)記),該數(shù)據(jù)庫中的每一個(gè)②
記錄都賦予一個(gè)類別的標(biāo)記,這樣的數(shù)據(jù)庫稱為示例數(shù)據(jù)庫或訓(xùn)練集。分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個(gè)類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個(gè)分類規(guī)則對其他數(shù)據(jù)庫中的記錄進(jìn)行分類。
4.聚類分析。聚類分析輸入的是一組未分類記錄,并且這些記錄應(yīng)分成幾類事先也不知道,通過分析數(shù)據(jù)庫中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,合理地劃分記錄集合,確定每個(gè)記錄所在類別。它所采用的分類規(guī)則是由聚類分析工具決定的。采用不同的聚類方法,對于相同的記錄集合可能有不同的劃分結(jié)果。
應(yīng)用數(shù)據(jù)挖掘技術(shù),較為理想的起點(diǎn)就是從一個(gè)數(shù)據(jù)倉庫開始,數(shù)據(jù)挖掘可以直接跟蹤數(shù)據(jù)并輔助用戶快速做出商業(yè)決策,用戶還可以在更新數(shù)據(jù)的時(shí)候不斷發(fā)現(xiàn)更好的行為模式,并將其運(yùn)用于未來的決策當(dāng)中。
三、選擇數(shù)據(jù)挖掘技術(shù)的兩個(gè)重要依據(jù)。
數(shù)據(jù)挖掘使用的技術(shù)很多,其中主要包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、和神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。統(tǒng)計(jì)方法可細(xì)分為回歸分析、判別分析、聚類分析、探索性分析等。機(jī)器學(xué)習(xí)方法可細(xì)分為歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納)、基于范例學(xué)習(xí)、遺傳算法等。神經(jīng)網(wǎng)絡(luò)方法可細(xì)分為錢箱神經(jīng)網(wǎng)絡(luò)(BP算法)、自組織神經(jīng)網(wǎng)絡(luò)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。由于每一種數(shù)據(jù)挖掘技術(shù)都有其自身的特點(diǎn)和實(shí)現(xiàn)的步驟,對數(shù)據(jù)的形式有具體的要求,并且與具體的應(yīng)用問題密切相關(guān),因此成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)以達(dá)到目標(biāo)過程本身就是一件很復(fù)雜的事情,本文主要從挖掘任務(wù)和可獲得的數(shù)據(jù)兩個(gè)角度來討論對數(shù)據(jù)挖掘技術(shù)的選擇。
三、數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
數(shù)據(jù)挖掘能發(fā)現(xiàn)電子商務(wù)客戶的的共性和個(gè)性的知識、必然和偶然的知識、獨(dú)立和關(guān)聯(lián)的知識、現(xiàn)實(shí)和預(yù)測的知識等,所有這些知識經(jīng)過分析,能對客戶的消費(fèi)行為如心理、能力、動(dòng)機(jī)、需求、潛能等做出統(tǒng)計(jì)和正確地分析,為管理者提供決策依據(jù)。具體應(yīng)用如下:
1.分類與預(yù)測方法在電子商務(wù)中的應(yīng)用。在電子商務(wù)活動(dòng)中,分類是一項(xiàng)非常重要的任務(wù),也是應(yīng)用最多的技術(shù)。分類的目的是構(gòu)造一個(gè)分類函數(shù)或分類模型,通常稱作分類器。分類器的構(gòu)造方法通常由統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等。這些方法能把數(shù)據(jù)庫中的數(shù)據(jù)映射到給定類別中某一個(gè),以便用于預(yù)測,也就是利用歷史數(shù)據(jù)記錄,自動(dòng)推導(dǎo)出給定數(shù)據(jù)的推廣描述,從而對未來數(shù)據(jù)進(jìn)行預(yù)測。
2.聚類方法在電子商務(wù)中的應(yīng)用。聚類是把一組個(gè)體按照相似性原則歸成若干類別。對電子商務(wù)來說,客戶聚類可以對市場細(xì)分理論提供有力的支持。市場細(xì)分的目的是使得屬于同一類別的個(gè)體之間的距離盡可能小,而不同類別的個(gè)體之間的距離盡可能大,通過對聚類的客戶特征的提取,電子商務(wù)網(wǎng)站可以為客戶提供個(gè)性化的服務(wù)。
3.數(shù)據(jù)抽取方法在電子商務(wù)中的應(yīng)用。數(shù)據(jù)抽取的目的是對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述,如求和值、平均值、方差值、等統(tǒng)計(jì)值、或者用直方圖、餅狀圖等圖形方式表示,更主要的是他從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把最原始、最基本的信息數(shù)據(jù)從低層次抽象到高層次上的過程??刹捎枚嗑S數(shù)據(jù)分析方法和面向?qū)傩缘臍w納方法。在電子商務(wù)活動(dòng)中,采用維數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)抽取,他針對的是電子商務(wù)活動(dòng)中的客戶數(shù)據(jù)倉庫。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計(jì)、平均、最大、最小等匯集操作,這類操作的計(jì)算量特別大,可把匯集操作結(jié)果預(yù)先計(jì)算并存儲(chǔ)起來,以便用于決策支持系統(tǒng)使用。
4.關(guān)聯(lián)規(guī)則在電子商務(wù)中的應(yīng)用。管理部門可以收集存儲(chǔ)大量的售貨數(shù)據(jù)和客戶資料,對這些歷史數(shù)據(jù)進(jìn)行分析并發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。如分析網(wǎng)上顧客的購買行為,幫助管理者規(guī)劃市場,確定商品的種類、價(jià)格、質(zhì)量等。通常關(guān)聯(lián)規(guī)則有兩種:有意義的關(guān)聯(lián)規(guī)則和泛化關(guān)聯(lián)規(guī)則,有意義的關(guān)聯(lián)規(guī)則,即滿足最小支持度和最小可信度的規(guī)則。最小支持度,它表示一組對象在統(tǒng)計(jì)意義上的需滿足的最低程度,如電子商務(wù)活動(dòng)中的客戶數(shù)量、客戶消費(fèi)能力、消費(fèi)方式等。后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則的最低可靠度。第二是泛化規(guī)則,這種規(guī)則更實(shí)用,因?yàn)檠芯繉ο蟠嬖谝环N層次關(guān)系,如面包、蛋糕屬西點(diǎn)類,而西點(diǎn)又屬于食品類,有了層次關(guān)系后,可以幫助發(fā)現(xiàn)更多的有意義的規(guī)則。
5、優(yōu)化企業(yè)資源
節(jié)約成本是企業(yè)盈利的關(guān)鍵?;跀?shù)據(jù)挖掘技術(shù),實(shí)時(shí)、全面、準(zhǔn)確地掌握企業(yè)資源信息,通過分析歷史的財(cái)務(wù)數(shù)據(jù)、庫存數(shù)據(jù)和交易數(shù)據(jù), 可以發(fā)現(xiàn)企業(yè)資源消耗的關(guān)鍵點(diǎn)和主要活動(dòng)的投入產(chǎn)出比例, 從而為企業(yè)資源優(yōu)化配置提供決策依據(jù), 例如降低庫存、提高庫存周轉(zhuǎn)率、提高資金使用率等。通過對Web數(shù)據(jù)挖掘,快速提取商業(yè)信息,使企業(yè)準(zhǔn)確地把握市場動(dòng)態(tài),極大地提高企業(yè)對市場變化的響應(yīng)能力和創(chuàng)新能力,使企業(yè)最大限度地利用人力資源、物質(zhì)資源和信息資源,合理協(xié)調(diào)企業(yè)內(nèi)外部資源的關(guān)系,產(chǎn)生最佳的經(jīng)濟(jì)效益。促進(jìn)企業(yè)發(fā)展的科學(xué)化、信息化和智能化。
例如:美國運(yùn)通公司(American Express)有一個(gè)用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫,數(shù)據(jù)量達(dá)到54億字符,并仍在隨著業(yè)務(wù)進(jìn)展不斷更新。運(yùn)通公司通過對這些數(shù)據(jù)進(jìn)行挖掘,制定了“關(guān)聯(lián)結(jié)算(Relation ship Billing)優(yōu)惠”的促銷策略,即如果一個(gè)顧客在一個(gè)商店用運(yùn)通卡購買一套時(shí)裝,那么在同一個(gè)商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷售量,也可以增加運(yùn)通卡在該商店的使用率。
6、管理客戶數(shù)據(jù)
隨著“以客戶為中心”的經(jīng)營理念的不斷深入人心, 分析客戶、了解客戶并引導(dǎo)客戶的需求已成為企業(yè)經(jīng)營的重要課題?;跀?shù)據(jù)挖掘技術(shù),企業(yè)將最大限度地利用客戶資源,開展客戶行為的分析與預(yù)測,對客戶進(jìn)行分類。有助于客戶盈利能力分析,尋找潛在的有價(jià)值的客戶,開展個(gè)性化服務(wù),提高客戶的滿意度和忠誠度。通過Web資源的挖掘,了解客戶的購買習(xí)慣和興趣,從而改善網(wǎng)站結(jié)構(gòu)設(shè)計(jì),推出滿足不同客戶的個(gè)性化網(wǎng)頁。利用數(shù)據(jù)挖掘可以有效地獲得客戶。比如通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)購買某種商品的消費(fèi)者是男性還是女性,學(xué)歷、收入如何, 有什么愛好,是什么職業(yè)等等。甚至可以發(fā)現(xiàn)不同的人在購買該種商品的相關(guān)商品后多長時(shí)間有可能購買該種商品, 以及什么樣的人會(huì)購買什么型號的該種商品等等。在采用了數(shù)據(jù)挖掘后, 針對目標(biāo)客戶發(fā)送的廣告的有效性和回應(yīng)率將得到大幅度的提高, 推銷的成本將大大降低。同時(shí),在客戶數(shù)據(jù)挖掘的基礎(chǔ)上,企業(yè)可以發(fā)現(xiàn)重點(diǎn)客戶和評價(jià)市場性能,制定個(gè)性化營銷策略,拓寬銷售渠道和范圍,為企業(yè)制定生產(chǎn)策略和發(fā)展規(guī)劃提供科學(xué)的依據(jù)。通過呼叫中心優(yōu)化與客戶溝通的渠道,提高對客戶的響應(yīng)效率和服務(wù)質(zhì)量,促
①進(jìn)客戶關(guān)系管理的自動(dòng)化和智能化。
三、結(jié)束語
電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果,也是未來商業(yè)運(yùn)作模式的必然選擇。利用數(shù)據(jù)挖掘技術(shù),充分發(fā)揮企業(yè)的獨(dú)特優(yōu)勢,促進(jìn)管理創(chuàng)新和技術(shù)創(chuàng)新,使企業(yè)在在電子商務(wù)的潮流中立于不敗之地。隨著數(shù)據(jù)挖掘算法的不斷發(fā)展和成熟,數(shù)據(jù)挖掘一定會(huì)有更加廣闊的應(yīng)用前景。
參考文獻(xiàn):
(1)《淺談數(shù)據(jù)挖掘在電子商務(wù)中的運(yùn)用》 鐘連福;
(2)《電子商務(wù)中商業(yè)數(shù)據(jù)的挖掘方法》 中國電子商務(wù)研究中心;
(3)《在電子商務(wù)中如何正確有使用數(shù)據(jù)挖掘技術(shù)》 俠名;
(4)《曾貞:數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用》 甘肅農(nóng)業(yè),2004(7);
(5)《馮艷王堅(jiān)強(qiáng):數(shù)據(jù)挖掘在電子商務(wù)上的應(yīng)用》 2002(3);
(6)《呂延杰徐華飛:中國電子商務(wù)發(fā)展研究報(bào)告》北京郵電大學(xué)出版社 ;
(7)《數(shù)據(jù)挖掘與電子商務(wù)》 鄧鯤鵬,周延杰,嚴(yán)瑜筱。①
第三篇:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W習(xí)心得.
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W習(xí)心得
通過數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的這門課的學(xué)習(xí),掌握了數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的一些基礎(chǔ)知識和基本概念,了解了數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別。下面談?wù)勎覍?shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W習(xí)心得以及閱讀相關(guān)方面的論文的學(xué)習(xí)體會(huì)。
《淺談數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》這篇論文主要是介紹數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的的一些基本概念。數(shù)據(jù)倉庫是支持管理決策過程的、面向主題的、集成的、穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合。主題是數(shù)據(jù)數(shù)據(jù)歸類的標(biāo)準(zhǔn),每個(gè)主題對應(yīng)一個(gè)客觀分析的領(lǐng)域,他可為輔助決策集成多個(gè)部門不同系統(tǒng)的大量數(shù)據(jù)。數(shù)據(jù)倉庫包含了大量的歷史數(shù)據(jù),經(jīng)集成后進(jìn)入數(shù)據(jù)倉庫的數(shù)據(jù)極少更新的。數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時(shí)間一般為5年至10年,主要用于進(jìn)行時(shí)間趨勢分析。數(shù)據(jù)倉庫的數(shù)據(jù)量很大。
數(shù)據(jù)倉庫的特點(diǎn)如下:
1、數(shù)據(jù)倉庫是面向主題的;
2、數(shù)據(jù)倉庫是集成的,數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫;
3、數(shù)據(jù)倉庫是不可更新的,數(shù)據(jù)倉庫主要是為決策分析提供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢;
4、數(shù)據(jù)倉庫是隨時(shí)間而變化的,傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務(wù)處理的需求,它在商業(yè)領(lǐng)域取得了巨大的成功。
作為一個(gè)系統(tǒng),數(shù)據(jù)倉庫至少包括3個(gè)基本的功能部分:數(shù)據(jù)獲取:數(shù)據(jù)存儲(chǔ)和管理;信息訪問。
數(shù)據(jù)挖掘的定義:數(shù)據(jù)挖掘從技術(shù)上來說是從大量的、不完全的、有噪音的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識的過程。
數(shù)據(jù)開采技術(shù)的目標(biāo)是從大量數(shù)據(jù)中,發(fā)現(xiàn)隱藏于其后的規(guī)律或數(shù)據(jù)間的的關(guān)系,從而服務(wù)于決策。數(shù)據(jù)挖掘的主要任務(wù)有廣義知識;分類和預(yù)測;關(guān)聯(lián)分析;聚類。
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)在金融信息化中的應(yīng)用》論文主要通過介紹數(shù)據(jù)額倉庫與數(shù)據(jù)挖掘的起源、定義以及特征的等方面的介紹引出其在金融信息化中的應(yīng)用。在金融信息化的應(yīng)用方面,金融機(jī)構(gòu)利用信息技術(shù)從過去積累的、海量的、以不同形式存儲(chǔ)的數(shù)據(jù)資料里提取隱藏著的許多
重要信息,并對它們進(jìn)行高層次的分析,發(fā)現(xiàn)和挖掘出這些數(shù)據(jù)間的整體特征描述及發(fā)展趨勢預(yù)測,找出對決策有價(jià)值的信息,以防范銀行的經(jīng)營風(fēng)險(xiǎn)、實(shí)現(xiàn)銀行科技管理及銀行科學(xué)決策。
現(xiàn)在銀行信息化正在以業(yè)務(wù)為中心向客戶為中心轉(zhuǎn)變6銀行信息化不僅是數(shù)據(jù)的集中整合,而且要在數(shù)據(jù)集中和整合的基礎(chǔ)上向以客為中心的方向轉(zhuǎn)變。銀行信息化要適應(yīng)競爭環(huán)境客戶需求的變化,創(chuàng)造性地用信息技術(shù)對傳統(tǒng)過程進(jìn)行集成和優(yōu)化,實(shí)現(xiàn)信息共享、資源整合綜合利用,把銀行的各項(xiàng)作用統(tǒng)一起來,優(yōu)勢互補(bǔ)統(tǒng)一調(diào)配各種資源,為銀行的客戶開發(fā)、服務(wù)、綜理財(cái)、管理、風(fēng)險(xiǎn)防范創(chuàng)立堅(jiān)實(shí)的基礎(chǔ),從而適應(yīng)日益發(fā)展的數(shù)據(jù)技術(shù)需要,全面提高銀行競爭力,為金融創(chuàng)新和提高市場反映能力服務(wù)。沃爾瑪利用信息技術(shù)建設(shè)的數(shù)據(jù)倉庫,在1997年圣誕節(jié)進(jìn)行市場技術(shù)建立的數(shù)據(jù)倉庫,即分析顧客最可能一起購買那些商品,結(jié)果產(chǎn)生了經(jīng)典的“啤酒與尿布”的故事,這便是借助于數(shù)據(jù)倉庫系統(tǒng)
第四篇:數(shù)據(jù)挖掘與分析心得體會(huì)
正如柏拉圖所說:需要是發(fā)明之母。隨著信息時(shí)代的步伐不斷邁進(jìn),大量數(shù)據(jù)日積月累。我們迫切需要一種工具來滿足從數(shù)據(jù)中發(fā)現(xiàn)知識的需求!而數(shù)據(jù)挖掘便應(yīng)運(yùn)而生了。正如書中所說:數(shù)據(jù)挖掘已經(jīng)并且將繼續(xù)在我們從數(shù)據(jù)時(shí)代大步跨入信息時(shí)代的歷程中做出貢獻(xiàn)。
1、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘應(yīng)當(dāng)更正確的命名為:“從數(shù)據(jù)中挖掘知識”,不過后者顯得過長了些。而“挖掘”一詞確是生動(dòng)形象的!人們把數(shù)據(jù)挖掘視為“數(shù)據(jù)中的知識發(fā)現(xiàn)(KDD)”的同義詞,而另一些人只是把數(shù)據(jù)挖掘視為知識發(fā)現(xiàn)過程的一個(gè)基本步驟!
由此而產(chǎn)生數(shù)據(jù)挖掘的定義:從大量數(shù)據(jù)中挖掘有趣模式和知識的過程!數(shù)據(jù)源包括數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他信息存儲(chǔ)庫或動(dòng)態(tài)地流入系統(tǒng)的數(shù)據(jù)。作為知識發(fā)現(xiàn)過程,它通常包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、模式發(fā)現(xiàn)、模式評估和知識表示六個(gè)步驟。
數(shù)據(jù)挖掘處理數(shù)據(jù)之多,挖掘模式之有趣,使用技術(shù)之大量,應(yīng)用范圍之廣泛都將會(huì)是前所未有的;而數(shù)據(jù)挖掘任務(wù)之重也一直并存。這些問題將繼續(xù)激勵(lì)數(shù)據(jù)挖掘的進(jìn)一步研究與改進(jìn)!
2、數(shù)據(jù)分析
數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對收集來的大量第一手資料和第二手資料進(jìn)行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。是為了提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。
數(shù)據(jù)分析有極廣泛的應(yīng)用范圍。典型的數(shù)據(jù)分析可能包含以下三個(gè)步:
1、探索性數(shù)據(jù)分析:當(dāng)數(shù)據(jù)剛?cè)〉脮r(shí),可能雜亂無章,看不出規(guī)律,通過作圖、造表、用各種形式的方程擬合,計(jì)算某些特征量等手段探索規(guī)律性的可能形式,即往什么方向和用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。
2、模型選定分析,在探索性分析的基礎(chǔ)上提出一類或幾類可能的模型,然后通過進(jìn)一步的分析從中挑選一定的模型。
3、推斷分析:通常使用數(shù)理統(tǒng)計(jì)方法對所定模型或估計(jì)的可靠程度和精確程度作出推斷。
數(shù)據(jù)分析的目的是把隱沒在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來,以找出所研究對象的內(nèi)在規(guī)律。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動(dòng)。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過程。這一過程是質(zhì)量管理體系的支持過程。在產(chǎn)品的整個(gè)壽命周期,包括從市場調(diào)研到售后服務(wù)和最終處置的各個(gè)過程都需要適當(dāng)運(yùn)用數(shù)據(jù)分析過程,以提升有效性。
由上可見,數(shù)據(jù)挖掘和數(shù)據(jù)分析雖然概念上層次清晰,作用上分工明確(數(shù)據(jù)分析主要以上數(shù)理統(tǒng)計(jì)為主,數(shù)據(jù)挖掘主要是挖掘算法為主)。但很明顯的是,數(shù)據(jù)挖掘必須借助數(shù)據(jù)分析的有關(guān)方法來挖掘出有效的,對目標(biāo)應(yīng)用有意義的模式和知識。或者可以說:數(shù)據(jù)挖掘也可以是數(shù)據(jù)分析的一種!
在這樣一個(gè)信息迅速膨脹的時(shí)代,數(shù)據(jù)挖掘和分析都與大量數(shù)據(jù)打交道。兩者都離不開一種80年代后期興起的一種高級數(shù)據(jù)分析技術(shù):數(shù)據(jù)倉庫和聯(lián)機(jī)分析處理。
3、數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是一個(gè)從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ)庫,存放在一致的的模式下,并且通常駐留在單個(gè)站點(diǎn)上。數(shù)據(jù)倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新來構(gòu)造。為便于決策,數(shù)據(jù)倉庫中的數(shù)據(jù)圍繞主題組織。數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息,并且通常是匯總的。數(shù)據(jù)倉庫提供一些數(shù)據(jù)分析能力,稱作聯(lián)機(jī)分析處理(OLAP)。
數(shù)據(jù)倉庫有以下四種關(guān)鍵特征:
面向主題的:數(shù)據(jù)倉庫圍繞一些重要主題,如顧客、供應(yīng)商、產(chǎn)品、和銷售組織。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,而不是單位的日常操作和事務(wù)處理。因此,數(shù)據(jù)倉庫通常排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。
集成的:通常,構(gòu)造數(shù)據(jù)倉庫是將多個(gè)異構(gòu)數(shù)據(jù)源,使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定,編碼結(jié)構(gòu),屬性度量等的一致性。
時(shí)變的:數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息。數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素。
非易失的:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制。通常,它只需要兩種數(shù)據(jù)訪問操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。
4、分類及算法
分類是一種重要的數(shù)據(jù)分析形式,它提取刻畫重要數(shù)據(jù)類的模型。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預(yù)測等,如一個(gè)汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會(huì)。
分類算法主要有決策樹歸納、貝葉斯分類、使用IF-THEN規(guī)則分類、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。
5、聚類分析
聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢預(yù)測、市場的細(xì)分等。
常用的算法有:
劃分方法:k-均值算法,k-中心點(diǎn)算法。
層次方法:層次聚類算法、平衡迭代歸約和算法、Chameleon(變色龍)、基于密度的方法:DBSCAN算法,OPTICS算法,DENCLUE算法?;诰W(wǎng)格的方法:STING(統(tǒng)計(jì)信息網(wǎng)格),CLIQUE
6、廣泛應(yīng)用
作為一個(gè)應(yīng)用驅(qū)動(dòng)的領(lǐng)域,數(shù)據(jù)挖掘融匯來自其他一些領(lǐng)域的技術(shù)。這些領(lǐng)域包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng),以及信息檢索。數(shù)據(jù)挖掘研究與開發(fā)的多學(xué)科特點(diǎn)大大促進(jìn)了數(shù)據(jù)挖掘的成功和廣泛應(yīng)用。
數(shù)據(jù)挖掘已經(jīng)有許多成功的應(yīng)用,如商務(wù)智能,Web搜索,生物信息學(xué),衛(wèi)生保健信息學(xué),金融,數(shù)字圖書館和數(shù)字政府等。
7、學(xué)習(xí)總結(jié)
數(shù)據(jù)挖掘技術(shù)已經(jīng)形成很廣泛的應(yīng)用空間,而目前JDMP的版本也在完善當(dāng)中,大多數(shù)數(shù)據(jù)挖掘開發(fā)工具涌現(xiàn)出來。各種相關(guān)的框架如Hadoop也如雨后春筍紛紛出現(xiàn)。這些現(xiàn)象的出現(xiàn),正是因?yàn)閿?shù)據(jù)挖掘的發(fā)展會(huì)有越來越廣泛的天空。然而數(shù)據(jù)挖掘還是有很多需要面臨并且急需解決的問題??而我們也希望其越來越深刻的研究和改進(jìn)。
對于數(shù)據(jù)挖掘的學(xué)習(xí),還是要注重算法的研究和開發(fā)。目前我還很欠缺這一塊知識。包括統(tǒng)計(jì)學(xué)、概率論,機(jī)器學(xué)習(xí)等。數(shù)據(jù)挖掘是個(gè)繁復(fù)的過程,需要我們長此以往的研究!
第五篇:數(shù)據(jù)挖掘與數(shù)據(jù)倉庫--教學(xué)大綱
數(shù)據(jù)挖掘與數(shù)據(jù)倉庫(教學(xué)大綱)
Data mining and data warehouse
課程編碼:05405140 學(xué)分: 2.5 課程類別: 專業(yè)方向課 計(jì)劃學(xué)時(shí): 48 其中講課:32 實(shí)驗(yàn)或?qū)嵺`: 上機(jī):16 適用專業(yè):信息管理與信息系統(tǒng)、電子商務(wù) 推薦教材:
陳文偉,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程,清華大學(xué)出版社,2008 參考書目:
1.Richard J.Roiger, Michael W.Geatz.Data Mining: A Tutorial-Based Primer.2003.2.Ian H.Witten, Eibe Frank.Data Mining: Practical Machine Learning Tools and Techniques(第二版).機(jī)械工業(yè)出版社(影印版),2005.3.Jiawei Han, Micheline Kamber.Data Mining: Concepts and Techniques.2001.5.4.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)(第2版),陳京民 編著,電子工業(yè)出版社,2007.11 5.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘,蘇新寧 等編著,清華大學(xué)出版社,2006.4 6.數(shù)據(jù)挖掘Clementine應(yīng)用實(shí)務(wù),謝邦昌 主編,機(jī)械工業(yè)出版社,2008.4
課程的教學(xué)目的與任務(wù)
本課程將系統(tǒng)介紹數(shù)據(jù)挖掘的基本概念、基本原理和應(yīng)用基礎(chǔ),通過課堂講授、實(shí)例分析,提高學(xué)生數(shù)據(jù)挖掘技術(shù)的認(rèn)識,熟悉基本工具應(yīng)用,并掌握設(shè)計(jì)和開發(fā)數(shù)據(jù)挖掘算法和系統(tǒng)的初步能力。
課程的基本要求
1、了解數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的概念、特征、應(yīng)用范圍,以及主要數(shù)據(jù)挖掘工具
2、了解OLTP 和 OLAP的區(qū)別;熟悉OLAP 的體系結(jié)構(gòu),以及如何評價(jià)OLAP工具;掌握多維分析的基本分析動(dòng)作。
3、了解數(shù)據(jù)質(zhì)量,掌握數(shù)據(jù)預(yù)處理方法,4、掌握數(shù)據(jù)挖掘的定性歸納技術(shù)、關(guān)聯(lián)挖掘、聚類分析、分類方法、預(yù)測方法、文本挖掘、WEB挖掘
5、熟練掌握數(shù)據(jù)挖掘軟件Clementine在各類挖掘任務(wù)中的應(yīng)用。各章節(jié)授課內(nèi)容、教學(xué)方法及學(xué)時(shí)分配建議(含課內(nèi)實(shí)驗(yàn))
第一章.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述 建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的概念、特征、應(yīng)用范圍,以及主要數(shù)據(jù)挖掘工具。[教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的概念
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 1.1 為什么要數(shù)據(jù)挖掘 1.2 數(shù)據(jù)挖掘的應(yīng)用示例 1.3 數(shù)據(jù)挖掘方法簡介
1.4 數(shù)據(jù)挖掘與其他學(xué)科的關(guān)系 1.5 商務(wù)智能的三大塊 1.6 常用數(shù)據(jù)挖掘工具簡介
第二章 數(shù)據(jù)倉庫技術(shù)
建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解數(shù)據(jù)倉庫的概念,區(qū)分與傳統(tǒng)數(shù)據(jù)庫技術(shù)的不同;掌握數(shù)據(jù)倉庫存儲(chǔ)的抽取、轉(zhuǎn)換和裝載
[教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)倉庫存儲(chǔ)的抽取、轉(zhuǎn)換和裝載;數(shù)據(jù)倉庫存儲(chǔ)的數(shù)據(jù)模型 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 2.1 數(shù)據(jù)倉庫的概念
2.2 數(shù)據(jù)倉庫存儲(chǔ)的數(shù)據(jù)模型 2.3 數(shù)據(jù)倉庫的體系結(jié)構(gòu)
2.4 數(shù)據(jù)倉庫應(yīng)用的抽取、轉(zhuǎn)換和裝載
第三章 數(shù)據(jù)倉庫開發(fā)模型
建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解數(shù)據(jù)倉庫開發(fā)模型的概念,了解數(shù)據(jù)倉庫開發(fā)過程,掌握數(shù)據(jù)倉庫三種概念模型:星型模式、雪花模式、或事實(shí)星座模式,掌握數(shù)據(jù)粒度概念,元數(shù)據(jù)概念。
[教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)倉庫三種概念模型,數(shù)據(jù)粒度概念,元數(shù)據(jù)概念 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 3.1 數(shù)據(jù)倉庫開發(fā)模型的概念
3.2 數(shù)據(jù)倉庫的概念模型 3.3 數(shù)據(jù)倉庫的邏輯模型 3.4 數(shù)據(jù)倉庫的物理模型 3.5 數(shù)據(jù)倉庫的生成
3.6 數(shù)據(jù)倉庫的使用和維護(hù)
3.7 數(shù)據(jù)倉庫的粒度、聚集和分割 3.8 元數(shù)據(jù)
第四章 聯(lián)機(jī)分析處理(OLAP)技術(shù) 建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解OLTP 和 OLAP的區(qū)別;熟悉OLAP 的體系結(jié)構(gòu),以及如何評價(jià)OLAP工具;掌握多維分析的基本分析動(dòng)作。[教學(xué)重點(diǎn)與難點(diǎn)] OLAP 的體系結(jié)構(gòu);多維分析的基本分析動(dòng)作 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 4.1 從OLTP 到 OLAP 4.2 OLAP 的基本概念
4.3 多維分析的基本分析動(dòng)作 4.4 OLAP 的數(shù)據(jù)組織 4.5 OLAP 的體系結(jié)構(gòu) 4.6 OLAP 工具及評價(jià)
4.7 Codd 關(guān)于 OLAP 產(chǎn)品的十二條評價(jià)準(zhǔn)則
第五章 數(shù)據(jù)挖掘的原理與技術(shù) 建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解為什么要數(shù)據(jù)挖掘、數(shù)據(jù)挖掘與其他學(xué)科的關(guān)系,熟悉常用數(shù)據(jù)挖掘方法和工具,掌握數(shù)據(jù)挖掘的原理與技術(shù)。
[教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)挖掘的原理與技術(shù),數(shù)據(jù)挖掘與其他學(xué)科的關(guān)系 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 5.1 知識發(fā)現(xiàn)的過程
5.2 數(shù)據(jù)挖掘的方法和技術(shù) 5.3 數(shù)據(jù)挖掘的知識表示
第六章 數(shù)據(jù)的獲取和管理 建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解數(shù)據(jù)的數(shù)據(jù)獲取和管理,掌握數(shù)據(jù)質(zhì)量的多維度量,掌握數(shù)據(jù)預(yù)處理方法 [教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)質(zhì)量,數(shù)據(jù)預(yù)處理方法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 6.1 數(shù)據(jù)倉庫的數(shù)據(jù)獲取 6.2 數(shù)據(jù)管理 6.3 系統(tǒng)管理 6.4 數(shù)據(jù)的預(yù)處理
6.5 數(shù)據(jù)質(zhì)量的多維度量 6.6 數(shù)據(jù)預(yù)處理的主要方法
第七章 定性歸納
建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解數(shù)據(jù)挖掘的定性歸納技術(shù),掌握ID3算法、C5.0算法。[教學(xué)重點(diǎn)與難點(diǎn)] ID3算法、C5.0算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 7.1 基本概念 7.2 數(shù)據(jù)泛化 7.3 屬性相關(guān)分析 7.4 挖掘概念對比描述
7.5 挖掘大數(shù)據(jù)庫的描述型統(tǒng)計(jì)信息
第八章 關(guān)聯(lián)挖掘
建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解關(guān)聯(lián)挖掘和的方法,掌握Apriori算法 [教學(xué)重點(diǎn)與難點(diǎn)] Apriori算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 8.1 基本概念
8.2 單維布爾邏輯關(guān)聯(lián)規(guī)則挖掘 8.3 多層關(guān)聯(lián)規(guī)則挖掘 8.4 多維關(guān)聯(lián)規(guī)則挖掘
8.5 關(guān)聯(lián)規(guī)則聚類系統(tǒng)(ARCS)8.6 關(guān)聯(lián)規(guī)則其它內(nèi)容
第九章
聚類分析
建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解什么是聚類分析、聚類和分類的區(qū)別,掌握聚類分析的算法。[教學(xué)重點(diǎn)與難點(diǎn)] 聚類分析的算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 9.1 什么是聚類分析
9.2 聚類分析中的數(shù)據(jù)類型 9.3 主要聚類算法的分類
第十章 分類 建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解什么是數(shù)據(jù)挖掘的分類,掌握KNN(K-Nearest Neighbor)分類和Bayes分類 [教學(xué)重點(diǎn)與難點(diǎn)] KNN(K-Nearest Neighbor)分類和Bayes分類 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 10.1 10.2 10.3 10.4 10.5
第十一章 預(yù)測 建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解預(yù)測算法,掌握回歸預(yù)測、廣義線性GenLin模型預(yù)測、支持向量機(jī)預(yù)測 [教學(xué)重點(diǎn)與難點(diǎn)] 回歸預(yù)測、廣義線性GenLin模型預(yù)測、支持向量機(jī)預(yù)測 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 11.1 11.2 預(yù)測的基本知識 預(yù)測的數(shù)據(jù)準(zhǔn)備 分類的基本知識 決策樹分類 支持向量機(jī)分類
KNN(K-Nearest Neighbor)分類 Bayes分類 11.3 11.4 11.5 11.6
預(yù)測的主要方法 回歸預(yù)測
廣義線性GenLin模型預(yù)測 支持向量機(jī)預(yù)測
撰稿人:蔡永明 審核人: