Stata中常用的数据分析命令
Stata 中常用的数据分析命令
1. 常用的数据分析工具
Stata、SPSS、SAS、R、Python,甚至 Excel 都可以做数据分析工作。R 和 Python 是程序员的首选,可以通过编写程序实现成整体的数据清洗、分析、挖掘,还可以增加扩展支持,把一套代码应用于类似的数据分析场景中。对于专业人士(如生物、医疗领域)来说,掌握编程语言的学习成本太高,他们更关注通过工具,方便快捷地得到分析结果,SPSS 和 Stata 主要是图形界面的软件操作,相对来说更为合适。很多专业领域,发论文时都使用了 Stata 和 SPSS 软件的分析结果,久而久之,也使该软件成为了该领域的数据分析标准工具。
###2. Stata 安装和运行
我下载的是 Stata 15.1 Linux 版本,下载到本地解包后,可看到工具 stata
和
xstata,它们分别是命令行版本和图形界面版本,图形界面中也可以使用命令,运行
xstata:
1 | $ ./xstata |
可在其下方的框内输入 Stata 命令回车运行,该软件中最常用的三个菜单是:Data(数据处理)、Graphic(画图)和 Statistic(统计)。功能非常丰富,包括很多二级三级子菜单,下文将介绍一些最常用的功能。
3. Stata 数据导入
Stata 数据导入主要有两种方式,一种是从文件导入,另一种是手动编辑内容。用文件菜单中的 Open 打开文件,支持 Stata 定义的数据’.dta’,图表’.gph’等文件类型(Python 的 Pandas 支持导出 Stata 文件类型,但默认不支持中文字段名),还可通过文件菜单中的 Import 导入 Excel、csv、dbf 等常用格式数据。另外,也可以通过界面上方的 New Do-file Editer 或 Data Editer 手动创建新的数据,以及编辑现有数据,编辑界面支持复制粘贴功能。可以看到,每次通过菜单操作后,界面中间的窗口中都显示出操作对应的命令,我们可以把常用的命令记录下来,以便后期通过命令行方式快速调用。
4. Stata 常用数据分析命令
(1) 变量相关
生成新变量
1 | . gen a=3 |
改变量名
1 | . rename a b |
改变量值
1 | . replace b=5 |
删除变量
1 | . drop b |
计算器
1 | . display 2+3 |
(2) 文件目录相关
切换目录
1 | . cd /tmp/ |
查看目录下文件
1 | . ls |
打开数据文件
1 | . use xxx.dta |
导入 excel 文件中名为“首页”的 sheet 页
1 | . import excel "/tmp/xxx.xlsx", sheet("首页") |
保存文件
1 | . save /tmp/a.dta |
退出
1 | . exit |
(3) 数据表相关
展示当前数据表内容
1 | . list |
看当前数据格式
1 | . describe |
查看统计数据,包含:例数 (Obs)、变量的平均值 (Mean)、标准差、最小值和最大值
1 | . sum |
计算尔尔森系数
1 | . pwcorr y x,sig |
计算斯皮尔曼系数
1 | . spearman y x |
计算 kwallis 检验值
1 | . kwallis y,by(x) |
计算 F 检验值
1 | . oneway y x |
多元线性回归
1 | . regress y x1 x2 x3… |