第一部分:初识Stata与数据读入
1)熟悉界面
2)寻求帮助(在线帮助、搜索帮助等)
3)DOS命令(cd、dir、erase、rm、shell等)
4)Winexec调用windows系统相关操作
5)copy命令(文件操作、网页源代码读取等)
6)Stata常用30个命令介绍
7)日期定义(日期格式设置、日期函数等)
8)函数(字符串函数、随机函数、编程函数等)
9)egen函数与常见统计量
10) txt、csv、excel等格式文件读入
11)Wind交易数据整理案例
12)基金经理变更数据整理案例
第二部分:宏与循环
1)local与global概念与基本操作
2)宏扩展函数
3)while、foreach、forvalue循环
4)跳出循环的continue 和continue, break
5)批量处理多个目录下的多个文件(fs命令)
6)批量处理多个变量的多个取值(levelsof命令)
7)NBER工作论文下载案例
8)上交所年报爬取综合案例
9)CSMAR交易和财务数据整理案例
第三部分:数据库操作
1)数据的纵向合并、横向合并与长宽变换
2) 工企数据库运用案例
3) Wind财务数据整理案例
4)美国流行歌曲目录整理案例
5)起死回生命令(preserve与restore)
6) CSSCI期刊目录整理案例
7) label命令介绍
8) labelsof、label 的宏扩展函数
9)字符串处理(关键词、替换、提取等)
第四部分:Post命令
1)post原理
2)定义post
3)用post计算股价同步性和Beta
4)基于网络数据的事件研究
5)股本变更数据整理案例
第五部分:回归分析及结果输出
1)putdocx命令输出内容至word文档
a)编辑docx文件中的文字内容
b)输出并编辑表格内容
c)输出内存中的list结果
d)输出矩阵
e)输出绘图
2)putdocx命令相关案例
a)输出十进位制下的汉字unicode编码
b)结合常用汉字生成随机汉字组成的段落
c)爬取并输出陕西省人大代表信息
3)实证结果输出
a)描述性统计信息:sum2docx
b)分组均值t检验:t2docx
c)相关系数矩阵:corr2docx
d)回归结果:reg2docx
4)实证结果输出完整展示
高级班课程大纲
第一部分:正则表达式
1)正则表达式基本函数介绍
a)ustrregexm()
b)ustrregexs()
c)ustrregexrf()与ustrregexra()
2)正则表达式元字符介绍
a)基本元字符
b)数量元字符
c)位置元字符
d)前后查找
e)特殊字符元字符
f)回溯引用
g)unicode编码
3)正则表达式匹配模式
a)贪婪模式
b)懒惰模式
4)正则表达式例子
a)邮编提取
b)英文姓与名的拆分
c)CSSCI数据预处理
d)百度新闻数量
e)城市名称提取
f)pdf表格数据的提取
g)英文姓名的拆分
h)用正则表达式提取日期
i)北大法宝裁判文书信息提取
5)正则表达式相关命令
a)moss命令与简单的词频统计
b)subinfile命令对文本文档进行操作
第二部分:网络爬虫
1)爬虫初步
a)新浪高管任职数据抓取
b)NBER Working Paper信息的抓取
c)百度地图api调用
2)寻找真实链接
a)和讯网港股数据
b)深交所信息披露质量
c)百度新闻逐年数据获取
3)调用curl
a)新浪财经港股数据获取
b)环保部AQI获取
第三部分:文本分析
1)分词原理
2)分词的实现
a)ustrwordcount()和ustrword()
b)调用Python的jieba和pynlpir
c)Bosonnlp的API
d)词频统计
3)高亮输出文章重点
4)词云图的实现
5)情感分析原理
6)情感分析的实现
a)年报MDA语调分析
b)构建词库计算情感值
c)大众点评日料评论情感分析
第四部分:实证研究方法
1) 工具变量方法(IV)
a)工具变量方法介绍
b)现代IV方法:LATE
c)IV方法应用一般步骤:论文案例与Stata实操
2) 断点回归方法(RD)
a)RD方法思想和方法演进
b)精准断点(Shape RD)与模糊断点(Fuzzy RD)
c)RD方法应用一般步骤:论文案例与Stata实操
3) 倍差法(DID)
a)DID模型设定、参数估计和假设检验
b)DID方法与固定效应估计(FE):联系和区别
c)IV方法应用一般步骤:论文案例与Stata实操
d)DDD(三重差分)方法介绍与应用
e)DDD论文案例与Stata实操 |