报名信息

  • 时间:2022.10.03 ~ 2022.10.04

  • 地点: 小鹅通平台(线上直播)

  • 报名咨询: 17816181460(同微信)(汪老师)

  • 报名费:2500元

    • 单位:杭州国商智库信息技术服务有限公司
    • 开户银行: 中国银行杭州大学城支行
    • 银行账户:6232636200100260588

简介

在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!

前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。大数据时代,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:

  1. 网络爬虫 解决 如何从网络世界中高效地 采集数据
  2. 文本分析 解决 如何从杂乱的文本数据中 构建指标

为方便大家感受到文本数据的魅力,按照是否采用某项技术(爬虫、词频、词袋、w2v建词典、w2v认知变迁),从五个维度标记代表性的7篇论文。

文献 爬虫 定性 词频 词袋 W2V建词典 W2V认知变迁
王伟 , 陈伟, 祝效国 and 王洪伟, 2016. 众筹融资成功率与语言风格的说服性–基于 Kickstarter 的实证研究. 管理世界, (5), pp.81-98. Y Y Y
语言具体性如何影响顾客满意度
Packard, Grant, and Jonah Berger. “How concrete language shapes customer satisfaction.” Journal of Consumer Research 47, no. 5 (2021): 787-806.
Y
Wang, Quan, Beibei Li, and Param Vir Singh. “Copycats vs. original mobile apps: A machine learning copycat-detection method and empirical analysis.” Information Systems Research 29, no. 2 (2018): 273-291. Y Y
文本相似度
Cohen, L., Malloy, C. and Nguyen, Q., 2020. Lazy prices. The Journal of Finance, 75(3), pp.1371-1415.
Y
胡楠, 薛付婧 and 王昊楠, 2021. 管理者短视主义影响企业长期投资吗———基于文本分析和机器学习. 管理世界, 37(5), pp.139-156. Y Y
Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, The Review of Financial Studies, 2020 Y Y
女性就职高管改变组织内性别偏见
Lawson, M. Asher, Ashley E. Martin, Imrul Huda, and Sandra C. Matz. “Hiring women into senior leadership positions is associated with a reduction in gender stereotypes in organizational language.” Proceedings of the National Academy of Sciences 119, no. 9 (2022): e2026443119.
Y

主讲老师

大邓,哈尔滨工业大学(HIT)管理学院信息管理系统方向在读博士。在多所大学分享数据采集和文本分析。运营公众号:大邓和他的Python,主要分享Python、爬虫、文本分析、机器学习等内容。


一、入门语法

  • Python跟英语一样是一门语言
  • 数据类型之字符串
  • 数据类型之列表元组集合
  • 数据类型之字典
  • 数据类型之布尔值、None
  • 逻辑语句(if&for&tryexcept)
  • 列表推导式
  • 理解函数
  • 常用的内置函数
  • os路径库
  • 内置库csv文件库
  • 常见错误汇总

二、数据采集

  • 网络爬虫原理
  • 寻找网址规律
  • 获取网页-requests库
  • pyquery库解析html网页
  • 案例: 豆瓣小说
  • json库解析json网页
  • 案例: 豆瓣电影
  • 案例: 微博
  • 案例: 文件下载
  • 案例: 上市公司定期报告pdf批量下载
  • 区分动态网站与静态网站

三、文本初识

  • 从信息传播视角重新认识文本
  • 读取各类文件中的数据
  • 案例: 识别图片中的文本
  • 数据清洗re库
  • 案例: 将多个数据文件汇总至一个csv文件
  • 案例: 中文jieba分词、词频统计、制作词云图
  • 案例: 使用共现(word2vec)法扩展情感词典
  • 案例: 使用词典做情感分析(无权重)
  • 案例: 数据分析pandas库快速入门
  • 案例: 使用pandas对excel中的文本进行情感分析

四、文本进阶

  • 文本分析与机器学习
  • 特征工程-认识词袋法、one-hot、Tf-Idf、word2vec
  • 将文档转为机器可处理的向量
  • 案例: 使用情感词典和tf-idf做情感分析(有权重)
  • 案例: 在线评论文本分类
  • 案例: 使用文本相似性识别变化(政策连续性)
  • 案例: Kmeans聚类算法、LDA话题模型
  • 文本中的人类记忆(认知)
  • 如何测量人类认知偏见(刻板印象)
  • 案例: 词向量模型的使用方法-豆瓣影评
  • 文本分析在经管社科领域中的应用概述

参考文献

[1]沈艳, 陈赟 and 黄卓, 2019. 文本大数据分析在经济学和金融学中的应用: 一个文献综述. *经济学 (季刊)*, *18*(4), pp.1153-1186.
[2]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J/OL].南开管理评论:1-27[2022-04-08].http://kns.cnki.net/kcms/detail/12.1288.F.20210905.1337.002.html
[3]王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.*管理世界*.2016;5:81-98.
[4]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.
[5]Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, *The Review of Financial Studies*,2020
[6]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. *Journal of Accounting Research*, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
[7]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." *Journal of Marketing* 84, no. 1 (2020): 1-25.
[8]Banks, George C., Haley M. Woznyj, Ryan S. Wesslen, and Roxanne L. Ross. "A review of best practice recommendations for text analysis in R (and a user-friendly app)." *Journal of Business and Psychology* 33, no. 4 (2018): 445-459.
[9]Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. "Lazy prices." *The Journal of Finance* 75, no. 3 (2020): 1371-1415.
[10]孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. *中国工业经济*, 2017 (12): 132-150.
[11]Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." *Information Systems Research* 29.2 (2018): 273-291.
[12]Hoberg, Gerard, and Gordon Phillips. 2016, Text-based network industries and endogenous product differentiation,?*Journal of Political Economy* 124, 1423-1465
[13]Loughran, Tim, and Bill McDonald. "When is a liability not a liability? Textual analysis, dictionaries, and 10‐Ks." *The Journal of Finance* 66, no. 1 (2011): 35-65.
[14]Fairclough, Norman. 2003. Analysing discourse: Textual analysis for social research (Psychology Press)
[15]Grimmer, Justin, and Brandon M Stewart. 2013, Text as data: The promise and pitfalls of automatic content analysis methods for political texts, *Political analysis*21, 267-297.
[16]Markowitz, D. M., & Shulman, H. C. (2021). The predictive utility of word familiarity for online engagements and funding. Proceedings of the National Academy of Sciences, 118(18).
[17]Packard, Grant, and Jonah Berger. “How concrete language shapes customer satisfaction.” Journal of Consumer Research 47, no. 5 (2021): 787-806.
[18]Chen, H., Yang, C., Zhang, X., Liu, Z., Sun, M. and Jin, J., 2021. From Symbols to Embeddings: A Tale of Two Representations in Computational Social Science. Journal of Social Computing, 2(2), pp.103-156.
[19]Lawson, M. Asher, Ashley E. Martin, Imrul Huda, and Sandra C. Matz. "Hiring women into senior leadership positions is associated with a reduction in gender stereotypes in organizational language." *Proceedings of the National Academy of Sciences* 119, no. 9 (2022): e2026443119.