聚类分析怎么做(步骤及案例分析)

seoxin 10-06 16:03 13次浏览

序曲

清平乐·雪

【宋】孙道绚

悠悠飏飏,做尽轻模样。半夜萧萧窗外响,多在梅边竹上。

朱楼向晓帘开,六花片片飞来。无奈熏炉烟雾,腾腾扶上金钗。

【译文】

雪花飘飘洒洒满天飞舞,一副轻盈潇洒的模样。半夜只听得窗外大雪下的沙沙作响,压折那院中梅树和竹枝。
第二天起床便迫不及待的掀开帘子,只见片片雪花迎面扑来。无奈房内熏炉中的烟雾一下就将身上的雪花全部融化了,只能看着雪花变成热气腾腾的雾气升腾而起,轻轻地笼罩在她那插有金钗的头上。

【赏析】

雪,自古以来就一直备受着人们的青睐。自东晋谢家才女一句“未若柳絮因风起”,它似乎更成了后世文人反复咏唱的对象。

“悠悠扬扬,做尽轻模样。”黄昏之际,作者看见了雪花在漫天飞舞。“轻模样”,轻盈的模样,此形容可谓贴切传神。五百多年后,纳兰容若写了一首《采桑子》的词,开头就化用孙道勋的这句:“非关癖爱轻模样,冷处偏佳。”纳兰公子阐明了自己的观点:我并不是喜欢雪花那轻盈悠扬的模样,我之所以喜爱它,完全是因为它生有人间绝无仅有的,那一种孤寂而又冷艳的美。

“无奈熏炉烟雾,腾腾扶上金钗。”结句笔触轻灵,情感细腻。描写的是作者转身回屋的时候,没想到由于房内熏炉中那些带有温度的烟气,一下就将身上的雪花全部融化了。她无奈地看着雪花变成热气腾腾的雾气升腾而起,轻轻地笼罩在她那插有金钗的头上。雾气最后也渐渐地消失了,她显得无比的失落,只得独自在那低眉叹气。

明末戏曲理论家沈际飞,曾对这首词评曰:“雪之形声,盈耳盈目。”全词借物抒情,不写一字之喜,不着一句之怒,作者用轻灵的笔触,把一个女子一喜一嗔的神情,刻画得是如此细致入微,惟妙惟肖。

人的一生中,注定有很多美好的事物都要转瞬即逝。邓红梅教授也说过,纤微优美的景物,能映照出女词人内心敏感而细腻的情绪。

注:来源于 古诗文网

系统聚类分析简介

聚类方法有多种,除前面两节提到的k-均值聚类、两步聚类方法,还有系统聚类,它也是在实际工作中经常使用的方法。其适用于小样本的变量聚类或者样本聚类,原始数据可以是数值变量,也可以是多分类变量或二分类变量。但最好不要有不同类型变量的混合,三种变量可选择不同的距离度量。

系统聚类的具体步骤如下:

  • 开始时每个样本/变量看做一类,假设为n类;
  • 计算上述n类的两两类间距离,将距离最小的两类合为一类,这时共有n-1类
  • 计算上述n-1类的两两类间距离,将距离最小的两类合为一类,这时共有n-2类
  • 重复上述过程,直至所有类都合并为一类
  • 根据类间距离和实际意义选择适当的分类

整个聚类过程可绘制成聚类图。类与类之间的距离有各种不同的定义方法,定义不同即产生不同算法,而不同的算法,而不同的算法可能得到不同结果。选择何种结果合适,需结合专业知识进行判断。

SPSS实现系统聚类

示例:某研究室欲用气相色谱法分析细菌全细胞脂肪酸的含量来研究细菌的分类和鉴定。采用被试菌株共24株,其中空肠弯曲菌8株(标号CJ1-CJ8),结肠弯曲菌3株(标号CC1-CC3),幽门螺杆菌9株(标号HP1-HP9)和其他肠道杆菌4株(标号XX1-XX4)。分别用气象色谱法测得各菌株的12种脂肪酸的百分含量(变量名X1-X12)。要求依据变量X1-X12对24各菌株进行聚类分析。具体数据如下:

分类分析 之 系统聚类分析

1.打开 分析—分类—二阶聚类

分类分析 之 系统聚类分析

2. 参数选择与说明

(1)主页面

分类分析 之 系统聚类分析
  • 变量:选择用于聚类的变量
  • 个案标注依据:选择标签变量,在结果中表示观测记录
  • 聚类:指定聚类分析的类型

—-个案:进行对样本聚类,即Q型聚类

—-变量:对变量的聚类,即R型聚类

  • 显示:指定聚类分析输出哪些内容

—-统计:输出距离矩阵、最终分类信息等

—-图形:反映聚类过程的树形图、冰状图等

(2)统计 页面

分类分析 之 系统聚类分析
  • 集中计划:输出聚类过程表,包括每一步被合并的类或样本测量以及它们之间的距离和新生成的类等消息。根据此表能追踪整个聚类的合并过程,由于每次都是把最相近的两类聚为一类,据此可查看哪些观测量之间的距离最近。
  • 近似值矩阵:输出各项之间的距离矩阵或相似度矩阵,产生什么类型的矩阵取决于在 方法 选项卡中测量栏的选择
  • 聚类成员:设置类成员表的输出格式,包括每个观测记录的最终分类结果

—-无:不显示类成员表,默认选项

—-单个解:输出指定聚类个数时的类成员表,在右侧的输入框指定聚类个数,该数值必须大于1,且小于等于参与聚类的样本个数和变量个数。

—-解的范围:输出聚类个数在某个范围时的类成员表,在 最小聚类数 框中指定一个最小的聚类个数,在最大聚类数 框中指定一个最大的聚类个数。

(3)图 页面

分类分析 之 系统聚类分析
  • 谱系图:输出树形图,系统地描绘了聚类的整个过程
  • 冰柱图:

a.全部聚类:表示把聚类的每一步都表现在图中,如此可查看聚类的全过程;

b.指定范围内的聚类:指定显示的聚类个数范围。开始聚类—显示起始聚类步数;停止聚类—显示终止聚类步数;依据—指定要连续显示的两步聚类步骤之间的步数增量

  • 方向:设定冰柱图的显示方向

(4)方法 页面

分类分析 之 系统聚类分析
  • 聚类方法:选择计算类间距离的方法

a.组间联接:类间平均法,倾向合并偏差较小的类

b.组内联接:类内平均法,倾向合并偏差较小的类

c.最近邻元素:适用于非常离散的资料

d.最远邻元素:受异常值影响大,适合高度压缩的资料

e.质心聚类:中间距离法,为前两种方法的折中

f.中位数聚类:中心法,分类效果较差,但稳健,对异常值不敏感

g.瓦尔德法:离差平方和法,倾向得到各类样本数目接近的分类结果,分类效果好但对异常值敏感

  • 测量:对不同类型的变量选择不同的距离度量方法;区间—数值变量,默认;计数—分类变量;二元—二分类变量。
  • 转换值:选择数据标准化的方法
  • 转换测量:选择对距离测度再变换的方法;包括取绝对值、改变符号、重新标度0-1的范围。

(5)保存 页面:创建新变量,保存聚类结果

分类分析 之 系统聚类分析
  • 单个解:设定某一聚类数时的聚类结果
  • 解的范围:设定某一聚类范围时的聚类结果

3.结果输出与解释

(1)个案处理摘要

  • 显示样本数、缺失值数,及所占百分比。
分类分析 之 系统聚类分析

(2)聚类过程详细步骤

可以看到:

  • 第一步:13号和16号样本先聚为一类;
  • 第二步:13/16/19号样本聚为一类;直到最后全部样本聚为一类。
分类分析 之 系统聚类分析

(3)聚类图

  • 样本聚为2类或3类;两类结果中,除HP9独成一类,其余为一类;三类结果中,HP9独成一类,XX1-XX4为一类,剩余样本聚为一类。
分类分析 之 系统聚类分析

4.语法

*******************系统聚类 ******************.
PROXIMITIES x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12
/MATRIX OUT(D0.03150135853290548)
/VIEW=CASE
/MEASURE=SEUCLID
/PRINT NONE
/ID=name
/STANDARDIZE=VARIABLE Z.

5.总结

  • 聚类分析属于探索性分析工具,对聚类分析结果的优劣评价目前还没有系统的检验理论,因此实际工作中,只能通过多次尝试,结合实际意义选取较优的分类结果
  • 3种聚类方法结果如下:
分类分析 之 系统聚类分析
  • 暂无推荐