数据分析软件SPSS及数据挖掘软件WEKA使用

Created2010-10-31|Updated2025-04-04|2_Note0_Technic2_算法3_数据数据分析

|Word count:700|Reading time:2min|Post View:

数据分析软件 SPSS 及数据挖掘软件 WEKA 使用

#数据分析

1. 说明
从数据表中读入数据，用 SPSS 进行数据处理，然后用 WEKA 进行数据分析。

2. EXCEL

目的
用 java 将其它数据写入 EXCEL
读写 excel 的 jar 包 jexcelapi 从此处下载
[http://www.andykhan.com/jexcelapi/download.html

](http://www.andykhan.com/jexcelapi/download.html)

java 读写 excel 例程示例
http://www.javaeye.com/topic/55844
[http://mengqingyu.javaeye.com/blog/440358

](http://mengqingyu.javaeye.com/blog/440358)

3. 数据分析软件 SPSS（占据 90% 市场分额）

目的
整理数据，分析数据，结果展示
读入数据

方法一：从 excel 中复制单元格，粘贴在 SPSS 中
直接打开 excel 文件 (*.xls)，注意因为版本原因，用 java 写的 xls 有的需要再用 excel

转存一下才能供 SPSS 使用

操作数据

数据处理

修改字段类型
从 SPSS 左下角的进入 Variable View 选项卡，可改变字段的类型值
Meature 数据量度: Scale(数值), Ordinal(可排序), Nominal(离散)
计算新变量
菜单 Transform->Compute varliable，将根据现有列计算出新列
排序
菜单 Transform->Rank cases 生成新列，新列中是排序号
修改内容
菜单 Transform->Record into xxx，根据某列数据通过某种算法产生新数据
文件操作
菜单 Data->Merge File
数据整理：菜单 Data->Select Cases，数据选择
菜单 Data->Weight Cases，数据加权

数据分析

生成关系矩阵
菜单 Analyze->Correlate->Bivariate，生成矩阵，数越大，相关性越大
生成 K 均值聚簇
菜单 Analyze->Classify->K-Means cluster，将需计算的数据放入 Variables，说明列放入 Label

Cases by，在 Iterate 中设置迭代次数，Number of clusters 中输入簇数，选中 Save

中项，以生成列（记录属于哪个簇，与簇心的距离）

数据描述，结果展示：菜单 Graphs
注意：开始使用时，数据最好转成 int 型，以便于计算

菜单说明
Data 菜单：操作行
Transform 菜单：操作列
Analyze 菜单：数据分析，主要是聚类和分类方法

4. 数据挖掘软件 WEKA

目的
数据分析
读入数据

使用 SPSS 和 Excel 保存为 csv 文件 (文本格式的数据文件)
在预处理选项卡中用 Open file 打开 csv 文件，注意 csv 中不能含有特殊字符
WEKA 中默认的文本格式为 arff，也是一种文本格式的数据文件

操作数据

分类
选项卡 Classify 选择 Choose->trees->J48 或 ID3 (ID3 只能处理离散值)，生成决策树
关联
选项卡 Associate 选择 Choose->apriori，在按钮右侧通过点击设置支持度 (lowerBoundMinSuport)

，可信度 (upperBoundMinSupport)，apriori 需要离散化数据

5. 参考

《spss 数据统计分析与实践》pdf 文档

Author: Yan.xie

Link: http://xyan666.com/posts/63936/

Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.

Related Articles

大模型代理框架AutoGen_实战篇

Manus和OpenManus

从正态分布到T检验

Bland-Altman图

几种常见的数学分布

熵_相对熵_散度

Loading the Database