Python实证指标构建与文本分析

点击上方图片购买课程

概览

为何要学Python?

在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!

前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:

  1. 网络爬虫技术 解决 如何从网络世界中高效地 采集数据
  2. 文本分析技术 解决 如何从杂乱的文本数据中实证指标(情感、态度、刻板印象等)

发票事项

如需发票,请先加微信372335839, 咨询发票细节,再作购买

- 企业名称:哈尔滨所以然信息技术有限公司 
- 企业税号:91230109MABT7KBC4M 
- 银行账户:  6228400176412884160
- 开户行:   中国农业银行股份有限公司哈尔滨珠江支行


课程纲要

  • 课程目标: 掌握Python语法、网络爬虫、数据分析Pandas、文本分析、机器学习、词嵌入与认知
  • 核心知识点: 爬虫原理及应用、 非结构化文本数据挖掘的思路及方法、机器学习应用等
  • 环境配置: 本文使用Anaconda作为Python的软件安装包,注意安装过程中勾选Add Anaconda 3.x to PATH
  • 课件资料: 本课程全部使用jupyter notebook文件作为课程课件

课程特色

  • 接地气: 以经管学术需求为导向, 将Python分为语法篇、采集数据篇、文本分析篇、机器学习篇四大部分
  • 好理解: 知识点力求通俗易懂,少了晦涩的计算机术语,多了通俗易懂的使用场景和实战讲解
  • 上手快: 所有知识点均有可重复使用的代码块,犹如一块块的积木,课后您可以根据分析需要,快速搭建出自己的Python代码
  • 技术新: 最新词嵌入,可挖掘文本中的态度、偏见、刻板印象等。

经管-经典文本分析方法

在这里我把技术细分为词频、词袋、w2v建词典、w2v认知变迁四个维度,这四大技术方法在本课程中均有体现。为了直观了解课程价值,这里附上7篇文献,大家可以购课前以做参考。

文献 定性 词频 词袋 W2V建词典 W2V认知变迁
王伟, 陈伟, 祝效国 and 王洪伟, 2016. 众筹融资成功率与语言风格的说服性–基于 Kickstarter 的实证研究. 管理世界, (5), pp.81-98. Y Y
语言具体性如何影响顾客满意度
Packard, Grant, and Jonah Berger. “How concrete language shapes customer satisfaction.” Journal of Consumer Research 47, no. 5 (2021): 787-806.
Y
Wang, Quan, Beibei Li, and Param Vir Singh. “Copycats vs. original mobile apps: A machine learning copycat-detection method and empirical analysis.” Information Systems Research 29, no. 2 (2018): 273-291. Y
文本相似度
Cohen, L., Malloy, C. and Nguyen, Q., 2020. Lazy prices. The Journal of Finance, 75(3), pp.1371-1415.
Y
胡楠, 薛付婧 and 王昊楠, 2021. 管理者短视主义影响企业长期投资吗———基于文本分析和机器学习. 管理世界, 37(5), pp.139-156. Y Y
Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, The Review of Financial Studies, 2020 Y Y
女性就职高管改变组织内性别偏见
Lawson, M. Asher, Ashley E. Martin, Imrul Huda, and Sandra C. Matz. “Hiring women into senior leadership positions is associated with a reduction in gender stereotypes in organizational language.” Proceedings of the National Academy of Sciences 119, no. 9 (2022): e2026443119.
Y
使用词嵌入技术,量化近百年以来性别和族群的刻板印象
Garg, Nikhil, Londa Schiebinger, Dan Jurafsky, and James Zou. “Word embeddings quantify 100 years of gender and ethnic stereotypes.” Proceedings of the National Academy of Sciences 115, no. 16 (2018): E3635-E3644.
Y

一、课件下载

  1. 课程介绍

  2. Win中的Anaconda软件配置

  3. Mac中的Anaconda软件配置


二、Python语法入门

  1. Python跟英语一样是一门语言
  2. 数据类型之字符串
  3. 数据类型之列表元组集合
  4. 数据类型之字典
  5. 数据类型之布尔值、None
  6. 逻辑语句(if&for&tryexcept)
  7. 列表推导式
  8. 理解函数
  9. 常用的内置函数
  10. 内置库文件路径pathlib库
  11. 内置库csv文件库
  12. 内置库正则表达式re库
  13. 初学python常出错误汇总

三、数据采集

  1. 网络爬虫原理
  2. 网络访问requests库
  3. 网页解析pyquery库
  4. 「案例」 豆瓣读书
  5. 「案例」 Boss直聘
  6. 如何解析json数据
  7. 「案例」 豆瓣电影
  8. 「案例」 京东商城
  9. 「案例」 用爬虫下载文档及多媒体文件
  10. 「案例」 上市公司定期报告pdf批量下载
  11. 「案例」 上交所招股说明pdf批量下载
  12. 「案例」 深交所招股说明pdf批量下载
  13. 爬虫知识点总结

四、数据分析

  1. Pandas基础知识
  2. 数据去重与缺失值处理
  3. 合并数据
  4. 重塑数据
  5. 选取表中指定记录(行)
  6. 选取表中指定字段(列)
  7. 描述性统计
  8. 在表中创建新字段(列)
  9. 批操作apply与agg
  10. 透视表pivot_table
  11. 数据分组groupby
  12. 时间序列时间点创建
  13. 日期数据的dt属性
  14. 日期行索引操作(选取指定日期的数据)
  15. 时间序列date_range
  16. 时间序列重采样resample
  17. 时间序列时间窗口rolling
  18. 「案例」 Kaggle titanic数据集探索性分析
  19. 「案例」 Boss直聘Python岗位分析

五、初识文本分析

  1. 从编码/解码视角重新理解文本
  2. 读取不同格式文件中的数据
  3. 如何将多个年报整理到一个excel中
  4. 「案例」 中文分词及数据清洗
  5. 「案例」 词频统计&词云图
  6. 「案例」 共现法扩展情感词典(领域词典)
  7. 「案例」 词向量word2vec扩展领域词典
  8. 「案例」 中文情感分析(词典法)
  9. cntext库 情感分析代码操作
  10. 「案例」 对excel中的文本进行情感分析 91
  11. 「案例」: 语言具体性与心理距离 | 以JCR2021论文为例
  12. 「案例」: 使用LM金融词典对年报进行「语调分析」 | 2018管理世界
  13. 「案例」: 使用md&a数据测量企业数字化 | 管理世界、财经研究

六、机器学习与文本分析

  1. 了解机器学习ML
  2. 使用机器学习做文本分析的流程
  3. scikit-learn机器学习库简介
  4. 文本特征抽取(特征工程)
  5. 「案例」 在线评论文本分类
  6. 使用标注工具对数据进行标注
  7. 「案例」 计算文本情感分析(有权重)
  8. 「案例」 文本相似性计算
  9. 「案例」 使用文本相似性识别变化(政策连续性)
  10. 「案例」 Kmeans聚类算法
  11. 「案例」 LDA话题模型
  12. 使用机器学习从图片中提取文本信息

七、词嵌入与认知

  1. 词嵌入原理及应用概述
  2. 「案例」 豆瓣影评-训练词向量&使用词向量
  3. 「案例」 使用词向量做话题建模
  4. 「案例」 认知指标(态度、偏见等)的测量
  5. 总结-文本分析在社科(经管)领域中的应用



相关应用

参照两篇论文的摘要,可以通过场景化等的方式帮助我们迅速理解上面两个问题。摘要部分的加粗内容是论文用到的分析技术,在我们的课程中均有与之对应的知识点和代码。

曾庆生,周波,张程,陈信元.年报语调与内部人交易:“表里如一”还是“口是心非”?[J].管理世界,2018,34(09):143-160.

该文汉化了LM金融词典,并使用LM中文词典进行语调分析。 课程已整理了 LM中英文词典 及 对应代码。

摘要: 基于中国A股非金融公司2007~2014年年报语调的文本分析,本文研究了年报语调与年报披露后的内部人交易行为之间的关系。研究发现,年报语调越积极,公司高管在年报公布后一段期间内的卖出股票规模越大,净买入股票规模越小,表明公司高管编制年报时存在**「口是心非」** 的操纵嫌疑。进一步研究发现,年报披露后中期市场表现差、信息透明度低、非国有控股的公司高管交易与年报语调的反向关系分别显著强于年报披露后中期市场表现好、信息透明度高、国有控股的公司;而公司盈余管理程度、交易者职位(是否核心高管)对年报语调与高管交易关系的影响不显著。此外,年报语调越积极,高管亲属卖出股票的规模也越大,但未发现公司重要股东交易与 「年报语调」 相关。上述结果表明,中国上市公司年报存在语调管理行为,年报语调成为除会计报表以外另一种可以被内部人管理或操纵的信息。

关键词: 年报; 语调管理; 内部人交易; 信息不对称;


王伟,陈伟,祝效国,王洪伟.众筹融资成功率与语言风格的说服性——基于Kickstarter的实证研究[J].管理世界,2016(05):81-98.

摘要:众筹融资效果决定着众筹平台的兴衰。众筹行为很大程度上是由投资者的主观因素决定的,而影响主观判断的一个重要因素就是语言的说服性。而这又是一种典型的用 户产生内容(UGC),项目发起者可以采用任意类型的语言风格对项目进行描述。不同的语 言风格会改变投资者对项目前景的感知,进而影响他们的投资意愿。首先,依据 Aristotle 修 辞三元组以及 Hovland 说服模型,采用扎根理论,将众筹项目的语言说服风格分为 5 类:诉诸可信、诉诸情感、诉诸逻辑、诉诸回报和诉诸夸张。

然后,借助文本挖掘方法,构建说服风格语料库,并对项目摘要进行分类。

最后,建立语言说服风格对项目筹资影响的计量模型,并对 Kickstarter 平台上的 128345 个项目进行实证分析。总体来说,由于项目性质的差异,不同 的项目类别对应于不同的最佳说服风格。


胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.

摘要 : 在可持续发展战略导向下,秉持长远理念是企业抵御外部环境威胁和拥有可持续经营能力的基 石。然而,作为企业掌舵人的管理者并非都具有长远的目光。本文基于高层梯队理论和社会心理学中的时间 导向理论,提出了管理者内在的短视主义特质与企业资本支出和研发支出的关系,并采用文本分析和机器学习技术构建出管理者短视主义指标从而对其进行实证检验。研究结果发现,年报 MD&A 中披露的「短期视域」 语言 能够反映管理者内在的短视主义特质,管理者短视会导致企业减少资本支出和研发支出。当公司治理水平、监督型机构投资者的持股比例以及分析师关注度越高时,管理者短视主义对这些长期投资的负向影响越易受到抑制。最终,管理者短视主义导致的研发支出减少和资本投资效率降低会损害企业的未来绩效。本文拓宽了管理者短视主义的行为后果分析,对企业高层次管理人才的聘任以及企业和政府的监管具有重要的实践启示。同时,本文将文本分析和机器学习方法引入管理者短视主义的研究,为未来该领域的研究提供了参考和借鉴。

关键词: 管理者短视; 长期投资; 文本分析; 机器学习


相关文献

在这里我把技术细分为词频、词袋、w2v建词典、w2v认知变迁四个维度,整理了经管7篇论文。大家可以阅读这7篇论文,掌握文本分析的应用场景。

文献 定性 词频 词袋 W2V建词典 W2V认知变迁
王伟, 陈伟, 祝效国 and 王洪伟, 2016. 众筹融资成功率与语言风格的说服性–基于 Kickstarter 的实证研究. 管理世界, (5), pp.81-98. Y Y
语言具体性如何影响顾客满意度
Packard, Grant, and Jonah Berger. “How concrete language shapes customer satisfaction.” Journal of Consumer Research 47, no. 5 (2021): 787-806.
Y
Wang, Quan, Beibei Li, and Param Vir Singh. “Copycats vs. original mobile apps: A machine learning copycat-detection method and empirical analysis.” Information Systems Research 29, no. 2 (2018): 273-291. Y
文本相似度
Cohen, L., Malloy, C. and Nguyen, Q., 2020. Lazy prices. The Journal of Finance, 75(3), pp.1371-1415.
Y
胡楠, 薛付婧 and 王昊楠, 2021. 管理者短视主义影响企业长期投资吗———基于文本分析和机器学习. 管理世界, 37(5), pp.139-156. Y Y
Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, The Review of Financial Studies, 2020 Y Y
女性就职高管改变组织内性别偏见
Lawson, M. Asher, Ashley E. Martin, Imrul Huda, and Sandra C. Matz. “Hiring women into senior leadership positions is associated with a reduction in gender stereotypes in organizational language.” Proceedings of the National Academy of Sciences 119, no. 9 (2022): e2026443119.
Y
使用词嵌入技术,量化近百年以来性别和族群的刻板印象
Garg, Nikhil, Londa Schiebinger, Dan Jurafsky, and James Zou. “Word embeddings quantify 100 years of gender and ethnic stereotypes.” Proceedings of the National Academy of Sciences 115, no. 16 (2018): E3635-E3644.
Y
[1]沈艳, 陈赟, & 黄卓. (2019). 文本大数据分析在经济学和金融学中的应用: 一个文献综述. 经济学 (季刊), 18(4), 1153-1186.
[2]王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.*管理世界*.2016;5:81-98.
[3]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.
[4]Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, *The Review of Financial Studies*,2020
[5]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. *Journal of Accounting Research*, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
[6]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." *Journal of Marketing* 84, no. 1 (2020): 1-25.
[7]Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. "Lazy prices." *The Journal of Finance* 75, no. 3 (2020): 1371-1415.
[8]孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. *中国工业经济*, 2017 (12): 132-150.
[9]Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." *Information Systems Research* 29.2 (2018): 273-291.
[10]Packard, Grant, and Jonah Berger. “How concrete language shapes customer satisfaction.” _Journal of Consumer Research_ 47, no. 5 (2021): 787-806.
[11]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J].南开管理评论:1-27.
[12]曾庆生,周波,张程,陈信元.年报语调与内部人交易:“表里如一”还是“口是心非”?[J].管理世界,2018,34(09):143-160.
[13]彭红枫, & 林川. (2018). 言之有物: 网络借贷中语言有用吗?——来自人人贷借款描述的经验证据[J]. 金融研究, 461(11), 133-153.
[14]吴非, 胡慧芷, 林慧妍, and 任晓怡. “企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].” 管理世界 (2021).

发票事项

如需发票,请先加微信372335839, 咨询发票细节,再作购买

- 企业名称:哈尔滨所以然信息技术有限公司 
- 企业税号:91230109MABT7KBC4M 
- 银行账户:  6228400176412884160
- 开户行:   中国农业银行股份有限公司哈尔滨珠江支行