聚類分析

1.聚類分析概述

聚類分析（Cluster Analysis）又稱群分析，是根據(jù)“物以類聚”的道理，對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法，它們討論的對(duì)象是大量的樣品，要求能合理地按各自的特性來進(jìn)行合理的分類，沒有任何模式可供參考或依循，即是在沒有先驗(yàn)知識(shí)的情況下進(jìn)行的。聚類分析起源于分類學(xué)，在古老的分類學(xué)中，人們主要依靠經(jīng)驗(yàn)和專業(yè)知識(shí)來實(shí)現(xiàn)分類，很少利用數(shù)學(xué)工具進(jìn)行定量的分類。隨著人類科學(xué)技術(shù)的發(fā)展，對(duì)分類的要求越來越高，以致有時(shí)僅憑經(jīng)驗(yàn)和專業(yè)知識(shí)難以確切地進(jìn)行分類，于是人們逐漸地把數(shù)學(xué)工具引用到了分類學(xué)中，形成了數(shù)值分類學(xué)，之后又將多元分析的技術(shù)引入到數(shù)值分類學(xué)形成了聚類分析。

聚類分析被應(yīng)用于很多方面，在商業(yè)上，聚類分析被用來發(fā)現(xiàn)不同的客戶群，并且通過購(gòu)買模式刻畫不同的客戶群的特征；在生物上，聚類分析被用來動(dòng)植物分類和對(duì)基因進(jìn)行分類，獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí)；在地理上，聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫商趨于的相似性；在保險(xiǎn)行業(yè)上，聚類分析通過一個(gè)高的平均消費(fèi)來鑒定汽車保險(xiǎn)單持有者的分組，同時(shí)根據(jù)住宅類型，價(jià)值，地理位置來鑒定一個(gè)城市的房產(chǎn)分組；在因特網(wǎng)應(yīng)用上，聚類分析被用來在網(wǎng)上進(jìn)行文檔歸類來修復(fù)信息。

聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過程，所以同一個(gè)簇中的對(duì)象有很大的相似性，而不同簇間的對(duì)象有很大的相異性。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。聚類源于很多領(lǐng)域，包括數(shù)學(xué)，計(jì)算機(jī)科學(xué)，統(tǒng)計(jì)學(xué)，生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域，很多聚類技術(shù)都得到了發(fā)展，這些技術(shù)方法被用作描述數(shù)據(jù)，衡量不同數(shù)據(jù)源間的相似性，以及把數(shù)據(jù)源分類到不同的簇中。

2.聚類分析的計(jì)算方法

聚類分析計(jì)算方法主要有如下幾種：分裂法(partitioning methods)：層次法(hierarchical methods)：基于密度的方法(density-based methods): 基于網(wǎng)格的方法(grid-basedmethods): 基于模型的方法(model-based methods)。

1、分裂法又稱劃分方法(PAM:PArtitioning method) 首先創(chuàng)建k個(gè)劃分，k為要?jiǎng)?chuàng)建的劃分個(gè)數(shù)；然后利用一個(gè)循環(huán)定位技術(shù)通過將對(duì)象從一個(gè)劃分移到另一個(gè)劃分來幫助改善劃分質(zhì)量。

典型的劃分方法包括：
- k-means,k-medoids,CLARA(Clustering LARge Application),
- CLARANS(Clustering Large Application based upon RANdomized Search).
- FCM

2、層次法(hierarchical method) 創(chuàng)建一個(gè)層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下（分解）和自下而上（合并）兩種操作方式。為彌補(bǔ)分解與合并的不足，層次合并經(jīng)常要與其它聚類方法相結(jié)合，如循環(huán)定位。

典型的這類方法包括：
- BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法，它首先利用樹的結(jié)構(gòu)對(duì)對(duì)象集進(jìn)行劃分；然后再利用其它聚類方法對(duì)這些聚類進(jìn)行優(yōu)化。
- CURE(Clustering Using REprisentatives) 方法，它利用固定數(shù)目代表對(duì)象來表示相應(yīng)聚類；然后對(duì)各聚類按照指定量（向聚類中心）進(jìn)行收縮。
- ROCK方法，它利用聚類間的連接進(jìn)行聚類合并。
- CHEMALOEN方法，它則是在層次聚類時(shí)構(gòu)造動(dòng)態(tài)模型。

3、基于密度的方法，根據(jù)密度完成對(duì)象的聚類。它根據(jù)對(duì)象周圍的密度（如DBSCAN）不斷增長(zhǎng)聚類。

典型的基于密度方法包括：
- DBSCAN(Densit-based Spatial Clustering of Application with Noise):該算法通過不斷生長(zhǎng)足夠高密度區(qū)域來進(jìn)行聚類；它能從含有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。此方法將一個(gè)聚類定義為一組“密度連接” 的點(diǎn)集。
- OPTICS(Ordering Points To Identify the Clustering Structure):并不明確產(chǎn)生一個(gè)聚類，而是為自動(dòng)交互的聚類分析計(jì)算出一個(gè)增強(qiáng)聚類順序。

4、基于網(wǎng)格的方法，首先將對(duì)象空間劃分為有限個(gè)單元以構(gòu)成網(wǎng)格結(jié)構(gòu)；然后利用網(wǎng)格結(jié)構(gòu)完成聚類。

典型的基于網(wǎng)格的方法包括：
- STING(STatistical INformation Grid) 就是一個(gè)利用網(wǎng)格單元保存的統(tǒng)計(jì)信息進(jìn)行基于網(wǎng)格聚類的方法。
- CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個(gè)將基于網(wǎng)格與基于密度相結(jié)合的方法。

5、基于模型的方法，它假設(shè)每個(gè)聚類的模型并發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。

典型的基于模型方法包括：
- 統(tǒng)計(jì)方法COBWEB:是一個(gè)常用的且簡(jiǎn)單的增量式概念聚類方法。它的輸入對(duì)象是采用符號(hào)量（屬性-值）對(duì)來加以描述的。采用分類樹的形式來創(chuàng)建一個(gè)層次聚類。
- CLASSIT是COBWEB的另一個(gè)版本.。它可以對(duì)連續(xù)取值屬性進(jìn)行增量式聚類。它為每個(gè)結(jié)點(diǎn)中的每個(gè)屬性保存相應(yīng)的連續(xù)正態(tài)分布（均值與方差）；并利用一個(gè)改進(jìn)的分類能力描述方法，即不象COBWEB那樣計(jì)算離散屬性（取值）和而是對(duì)連續(xù)屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。因此它們都不適合對(duì)大數(shù)據(jù)庫進(jìn)行聚類處理.

傳統(tǒng)的聚類算法已經(jīng)比較成功的解決了低維數(shù)據(jù)的聚類問題。但是由于實(shí)際應(yīng)用中數(shù)據(jù)的復(fù)雜性，在處理許多問題時(shí)，現(xiàn)有的算法經(jīng)常失效，特別是對(duì)于高維數(shù)據(jù)和大型數(shù)據(jù)的情況。因?yàn)閭鹘y(tǒng)聚類方法在高維數(shù)據(jù)集中進(jìn)行聚類時(shí)，主要遇到兩個(gè)問題。①高維數(shù)據(jù)集中存在大量無關(guān)的屬性使得在所有維中存在簇的可能性幾乎為零；②高維空間中數(shù)據(jù)較低維空間中數(shù)據(jù)分布要稀疏，其中數(shù)據(jù)間距離幾乎相等是普遍現(xiàn)象，而傳統(tǒng)聚類方法是基于距離進(jìn)行聚類的，因此在高維空間中無法基于距離來構(gòu)建簇。

高維聚類分析已成為聚類分析的一個(gè)重要研究方向。同時(shí)高維數(shù)據(jù)聚類也是聚類技術(shù)的難點(diǎn)。隨著技術(shù)的進(jìn)步使得數(shù)據(jù)收集變得越來越容易，導(dǎo)致數(shù)據(jù)庫規(guī)模越來越大、復(fù)雜性越來越高，如各種類型的貿(mào)易交易數(shù)據(jù)、Web 文檔、基因表達(dá)數(shù)據(jù)等，它們的維度（屬性）通?？梢赃_(dá)到成百上千維，甚至更高。但是，受“維度效應(yīng)”的影響，許多在低維數(shù)據(jù)空間表現(xiàn)良好的聚類方法運(yùn)用在高維空間上往往無法獲得好的聚類效果。高維數(shù)據(jù)聚類分析是聚類分析中一個(gè)非?；钴S的領(lǐng)域，同時(shí)它也是一個(gè)具有挑戰(zhàn)性的工作。目前，高維數(shù)據(jù)聚類分析在市場(chǎng)分析、信息安全、金融、娛樂、反恐等方面都有很廣泛的應(yīng)用。

3.聚類分析的特征

聚類分析是根據(jù)事物本身的特性研究個(gè)體的一種方法，目的在于將相似的事物歸類。它的原則是同一類中的個(gè)體有較大的相似性，不同類的個(gè)體差異性很大。這種方法有三個(gè)特征：

（1）適用于沒有先驗(yàn)知識(shí)的分類。如果沒有這些事先的經(jīng)驗(yàn)或一些國(guó)際標(biāo)準(zhǔn)、國(guó)內(nèi)標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)，分類便會(huì)顯得隨意和主觀。這時(shí)只要設(shè)定比較完善的分類變量，就可以通過聚類分析法得到較為科學(xué)合理的類別；

可以處理多個(gè)變量決定的分類。例如，要根據(jù)消費(fèi)者購(gòu)買量的大小進(jìn)行分類比較容易，但如果在進(jìn)行數(shù)據(jù)挖掘時(shí)，要求根據(jù)消費(fèi)者的購(gòu)買量、家庭收入、家庭支出、年齡等多個(gè)指標(biāo)進(jìn)行分類通常比較復(fù)雜，而聚類分析法可以解決這類問題；

（3）聚類分析法是一種探索性分析方法，能夠分析事物的內(nèi)在特點(diǎn)和規(guī)律，并根據(jù)相似性原則對(duì)事物進(jìn)行分組，是數(shù)據(jù)挖掘中常用的一種技術(shù)。

4.聚類分析在市場(chǎng)分析中的應(yīng)用

這種較成熟的統(tǒng)計(jì)學(xué)方法如果在市場(chǎng)分析中得到恰當(dāng)?shù)膽?yīng)用，必將改善市場(chǎng)營(yíng)銷的效果，為企業(yè)決策提供有益的參考。其應(yīng)用的步驟為：將市場(chǎng)分析中的問題轉(zhuǎn)化為聚類分析可以解決的問題，利用相關(guān)軟件（如SPSS、SAS等）求得結(jié)果，由專家解讀結(jié)果，并轉(zhuǎn)換為實(shí)際操作措施，從而提高企業(yè)利潤(rùn)，降低企業(yè)成本。

聚類分析在客戶細(xì)分中的應(yīng)用

消費(fèi)同一種類的商品或服務(wù)時(shí)，不同的客戶有不同的消費(fèi)特點(diǎn)，通過研究這些特點(diǎn)，企業(yè)可以制定出不同的營(yíng)銷組合，從而獲取最大的消費(fèi)者剩余，這就是客戶細(xì)分的主要目的。常用的客戶分類方法主要有三類：經(jīng)驗(yàn)描述法，由決策者根據(jù)經(jīng)驗(yàn)對(duì)客戶進(jìn)行類別劃分；傳統(tǒng)統(tǒng)計(jì)法，根據(jù)客戶屬性特征的簡(jiǎn)單統(tǒng)計(jì)來劃分客戶類別；非傳統(tǒng)統(tǒng)計(jì)方法，即基于人工智能技術(shù)的非數(shù)值方法。聚類分析法兼有后兩類方法的特點(diǎn)，能夠有效完成客戶細(xì)分的過程。

例如，客戶的購(gòu)買動(dòng)機(jī)一般由需要、認(rèn)知、學(xué)習(xí)等內(nèi)因和文化、社會(huì)、家庭、小群體、參考群體等外因共同決定。要按購(gòu)買動(dòng)機(jī)的不同來劃分客戶時(shí)，可以把前述因素作為分析變量，并將所有目標(biāo)客戶每一個(gè)分析變量的指標(biāo)值量化出來，再運(yùn)用聚類分析法進(jìn)行分類。在指標(biāo)值量化時(shí)如果遇到一些定性的指標(biāo)值，可以用一些定性數(shù)據(jù)定量化的方法加以轉(zhuǎn)化，如模糊評(píng)價(jià)法等。除此之外，可以將客戶滿意度水平和重復(fù)購(gòu)買機(jī)會(huì)大小作為屬性進(jìn)行分類；還可以在區(qū)分客戶之間差異性的問題上納入一套新的分類法，將客戶的差異性變量劃分為五類：產(chǎn)品利益、客戶之間的相互作用力、選擇障礙、議價(jià)能力和收益率，依據(jù)這些分析變量聚類得到的歸類，可以為企業(yè)制定營(yíng)銷決策提供有益參考。

以上分析的共同點(diǎn)在于都是依據(jù)多個(gè)變量進(jìn)行分類，這正好符合聚類分析法解決問題的特點(diǎn)；不同點(diǎn)在于從不同的角度尋求分析變量，為某一方面的決策提供參考，這正是聚類分析法在客戶細(xì)分問題中運(yùn)用范圍廣的體現(xiàn)。

聚類分析在實(shí)驗(yàn)市場(chǎng)選擇中的應(yīng)用

實(shí)驗(yàn)調(diào)查法是市場(chǎng)調(diào)查中一種有效的一手資料收集方法，主要用于市場(chǎng)銷售實(shí)驗(yàn)，即所謂的市場(chǎng)測(cè)試。通過小規(guī)模的實(shí)驗(yàn)性改變，以觀察客戶對(duì)產(chǎn)品或服務(wù)的反應(yīng)，從而分析該改變是否值得在大范圍內(nèi)推廣。

實(shí)驗(yàn)調(diào)查法最常用的領(lǐng)域有：市場(chǎng)飽和度測(cè)試。市場(chǎng)飽和度反映市場(chǎng)的潛在購(gòu)買力，是市場(chǎng)營(yíng)銷戰(zhàn)略和策略決策的重要參考指標(biāo)。企業(yè)通常通過將消費(fèi)者購(gòu)買產(chǎn)品或服務(wù)的各種決定因素（如價(jià)格等）降到最低限度的方法來測(cè)試市場(chǎng)飽和度?；蛘咴诔霈F(xiàn)滯銷時(shí)，企業(yè)投放類似的新產(chǎn)品或服務(wù)到特定的市場(chǎng)，以測(cè)試市場(chǎng)是否真正達(dá)到飽和，是否具有潛在的購(gòu)買力。前述兩種措施由于利益和風(fēng)險(xiǎn)的原因，不可能在企業(yè)覆蓋的所有市場(chǎng)中實(shí)施，只能選擇合適的實(shí)驗(yàn)市場(chǎng)和對(duì)照市場(chǎng)加以測(cè)試，得到近似的市場(chǎng)飽和度；產(chǎn)品的價(jià)格實(shí)驗(yàn)。這種實(shí)驗(yàn)往往將新定價(jià)的產(chǎn)品投放市場(chǎng)，對(duì)顧客的態(tài)度和反應(yīng)進(jìn)行測(cè)試，了解顧客對(duì)這種價(jià)格的是否接受或接受程度；新產(chǎn)品上市實(shí)驗(yàn)。波士頓矩陣研究的企業(yè)產(chǎn)品生命周期圖表明，企業(yè)為了生存和發(fā)展往往要不斷開發(fā)新產(chǎn)品，并使之向明星產(chǎn)品和金牛產(chǎn)品順利過渡。然而新產(chǎn)品投放市場(chǎng)后的失敗率卻很高，大致為66%到90%。因而為了降低新產(chǎn)品的失敗率，在產(chǎn)品大規(guī)模上市前，運(yùn)用實(shí)驗(yàn)調(diào)查法對(duì)新產(chǎn)品的各方面（外觀設(shè)計(jì)、性能、廣告和推廣營(yíng)銷組合等）進(jìn)行實(shí)驗(yàn)是非常有必要的。

在實(shí)驗(yàn)調(diào)查方法中，最常用的是前后單組對(duì)比實(shí)驗(yàn)、對(duì)照組對(duì)比實(shí)驗(yàn)和前后對(duì)照組對(duì)比實(shí)驗(yàn)。這些方法要求科學(xué)的選擇實(shí)驗(yàn)和非實(shí)驗(yàn)單位，即隨機(jī)選擇出的實(shí)驗(yàn)單位和非實(shí)驗(yàn)單位之間必須具備一定的可比性，兩類單位的主客觀條件應(yīng)基本相同。

通過聚類分析，可將待選的實(shí)驗(yàn)市場(chǎng)（商場(chǎng)、居民區(qū)、城市等）分成同質(zhì)的幾類小組，在同一組內(nèi)選擇實(shí)驗(yàn)單位和非實(shí)驗(yàn)單位，這樣便保證了這兩個(gè)單位之間具有了一定的可比性。聚類時(shí)，商店的規(guī)模、類型、設(shè)備狀況、所處的地段、管理水平等就是聚類的分析變量。聚類分析在抽樣方案設(shè)計(jì)中的應(yīng)用

抽樣設(shè)計(jì)是市場(chǎng)調(diào)查中非常重要的一個(gè)部分，它的合理性直接決定了市場(chǎng)調(diào)查結(jié)果的可信度。在抽樣方案設(shè)計(jì)的步驟中，抽樣組織形式的選擇又是一個(gè)關(guān)鍵環(huán)節(jié)，它決定了樣本對(duì)總體的代表性的高低。依據(jù)抽樣誤差由低到高的順序排列，按照標(biāo)志排隊(duì)的等距抽樣方式抽樣誤差最小，其次分別為分層抽樣、按照無關(guān)標(biāo)志排隊(duì)的等距抽樣、簡(jiǎn)單隨機(jī)抽樣、整群抽樣和非隨機(jī)抽樣。結(jié)合資源的限制和操作的方便性進(jìn)行綜合選擇，分層抽樣在實(shí)踐中的應(yīng)用最為廣泛。分層抽樣又稱類型抽樣，它是先將總體所有單位按照重要標(biāo)志進(jìn)行分組，然后在各組內(nèi)按照簡(jiǎn)單隨機(jī)抽樣或等距抽樣方式抽取樣本單位的一種抽樣方式。在分組時(shí)引入聚類方法，可以增強(qiáng)組別的合理性。

聚類分析在銷售片區(qū)確定中的應(yīng)用

銷售片區(qū)的確定和片區(qū)經(jīng)理的任命在企業(yè)的市場(chǎng)營(yíng)銷中發(fā)揮著重要的作用。只有合理地將企業(yè)所擁有的子市場(chǎng)歸成幾個(gè)大的片區(qū)，才能有效地制定符合片區(qū)特點(diǎn)的市場(chǎng)營(yíng)銷戰(zhàn)略和策略，并任命合適的片區(qū)經(jīng)理。聚類分析在這個(gè)過程中的應(yīng)用可以通過一個(gè)例子來說明。某公司在全國(guó)有20個(gè)子市場(chǎng)，每個(gè)市場(chǎng)在人口數(shù)量、人均可支配收入、地區(qū)零售總額、該公司某種商品的銷售量等變量上有不同的指標(biāo)值。以上變量都是決定市場(chǎng)需求量的主要因素。把這些變量作為聚類變量，結(jié)合決策者的主觀愿望和相關(guān)統(tǒng)計(jì)軟件提供的客觀標(biāo)準(zhǔn)，接下來就可以針對(duì)不同的片區(qū)制定合理的戰(zhàn)略和策略，并任命合適的片區(qū)經(jīng)理了。

聚類分析在市場(chǎng)機(jī)會(huì)研究中的應(yīng)用

企業(yè)制定市場(chǎng)營(yíng)銷戰(zhàn)略時(shí)，弄清在同一市場(chǎng)中哪些企業(yè)是直接競(jìng)爭(zhēng)者，哪些是間接競(jìng)爭(zhēng)者是非常關(guān)鍵的一個(gè)環(huán)節(jié)。要解決這個(gè)問題，企業(yè)首先可以通過市場(chǎng)調(diào)查，獲取自己和所有主要競(jìng)爭(zhēng)者在品牌方面的第一提及知名度、提示前知名度和提示后知名度的指標(biāo)值，將它們作為聚類分析的變量，這樣便可以將企業(yè)和競(jìng)爭(zhēng)對(duì)手的產(chǎn)品或品牌歸類。根據(jù)歸類的結(jié)論，企業(yè)可以獲得如下信息：企業(yè)的產(chǎn)品或品牌和哪些競(jìng)爭(zhēng)對(duì)手形成了直接的競(jìng)爭(zhēng)關(guān)系。通常，聚類以后屬于同一類別的產(chǎn)品和品牌就是所分析企業(yè)的直接競(jìng)爭(zhēng)對(duì)手。在制定戰(zhàn)略時(shí)，可以更多的運(yùn)用“紅海戰(zhàn)略”。在聚類以后，結(jié)合每一產(chǎn)品或品牌的多種不同屬性的研究，可以發(fā)現(xiàn)哪些屬性組合目前還沒有融入產(chǎn)品或品牌中，從而尋找企業(yè)在市場(chǎng)中的機(jī)會(huì)，為企業(yè)制定合理的“藍(lán)海戰(zhàn)略”提供基礎(chǔ)性的資料。

評(píng)論 | 0條評(píng)論

評(píng)論

經(jīng)理人分享

聚類分析

目錄

1.聚類分析概述

2.聚類分析的計(jì)算方法

3.聚類分析的特征

4.聚類分析在市場(chǎng)分析中的應(yīng)用