数据分析软件SPSS及数据挖掘软件WEKA使用
数据分析软件 SPSS 及数据挖掘软件 WEKA 使用
#数据分析
1. 说明
从数据表中读入数据,用 SPSS 进行数据处理,然后用 WEKA 进行数据分析。
2. EXCEL
目的
用 java 将其它数据写入 EXCEL读写 excel 的 jar 包 jexcelapi 从此处下载
[http://www.andykhan.com/jexcelapi/download.html
](http://www.andykhan.com/jexcelapi/download.html)
- java 读写 excel 例程示例
http://www.javaeye.com/topic/55844
[http://mengqingyu.javaeye.com/blog/440358
](http://mengqingyu.javaeye.com/blog/440358)
3. 数据分析软件 SPSS(占据 90% 市场分额)
目的
整理数据,分析数据,结果展示读入数据
方法一:从 excel 中复制单元格,粘贴在 SPSS 中
直接打开 excel 文件 (*.xls),注意因为版本原因,用 java 写的 xls 有的需要再用 excel
转存一下才能供 SPSS 使用
- 操作数据
- 数据处理
修改字段类型
从 SPSS 左下角的进入 Variable View 选项卡,可改变字段的类型值
Meature 数据量度: Scale(数值), Ordinal(可排序), Nominal(离散)计算新变量
菜单 Transform->Compute varliable,将根据现有列计算出新列排序
菜单 Transform->Rank cases 生成新列,新列中是排序号修改内容
菜单 Transform->Record into xxx,根据某列数据通过某种算法产生新数据文件操作
菜单 Data->Merge File数据整理: 菜单 Data->Select Cases,数据选择
菜单 Data->Weight Cases,数据加权
- 数据分析
生成关系矩阵
菜单 Analyze->Correlate->Bivariate,生成矩阵,数越大,相关性越大生成 K 均值聚簇
菜单 Analyze->Classify->K-Means cluster,将需计算的数据放入 Variables,说明列放入 Label
Cases by,在 Iterate 中设置迭代次数,Number of clusters 中输入簇数,选中 Save
中项,以生成列(记录属于哪个簇,与簇心的距离)
数据描述,结果展示: 菜单 Graphs
注意:开始使用时,数据最好转成 int 型,以便于计算
- 菜单说明
Data 菜单:操作行
Transform 菜单:操作列
Analyze 菜单:数据分析,主要是聚类和分类方法
4. 数据挖掘软件 WEKA
目的
数据分析读入数据
使用 SPSS 和 Excel 保存为 csv 文件 (文本格式的数据文件)
在预处理选项卡中用 Open file 打开 csv 文件,注意 csv 中不能含有特殊字符
WEKA 中默认的文本格式为 arff,也是一种文本格式的数据文件
- 操作数据
分类
选项卡 Classify 选择 Choose->trees->J48 或 ID3 (ID3 只能处理离散值),生成决策树关联
选项卡 Associate 选择 Choose->apriori,在按钮右侧通过点击设置支持度 (lowerBoundMinSuport)
,可信度 (upperBoundMinSupport),apriori 需要离散化数据
5. 参考
- 《spss 数据统计分析与实践》pdf 文档