作者 bot_developer

搬运自


背景

  • 获得高质量(历史)股市新闻数据既困难又昂贵;
  • 订阅历史新闻数据提供商服务可能需要花费数千美元。



数据集

采集了6000只股票2009-2020年间的4万条新闻文章

数据链接:https://pan.baidu.com/s/1rMo4Ek2bxvVLmeyxskVCAg 密码:paen

raw_analyst_ratings.csv

直接抓取分析师评级数据,有1034位分析师对6204只股票进行了股票分析,分析记录累积1407328条, 字段包括:索引、标题、URL、文章作者(出版商总是benzinga)、出版时间戳、股票代码

请注意,此 CSV 文件中的所有日期均不包含精确的时分秒信息。 如果您打算使用此文件进行回测(analyst_ratings_processed.csv 更好),请假设文章是在第二天而不是当前文章中显示的日期发布的。


raw_partner_headlines.csv

直接抓取原始新闻标题,共有1845559条记录, 字段包括:索引、标题、URL、出版商(不是 benzinga)、日期、股票行情


analyst_ratings_processed.csv

处理过的分析师评级数据, 共有1400469条记录, 字段包括:文章标题,日期,股票

时区为 UTC-4。 这与 raw_analys_theadlines 之间的区别在于,它具有精确到分钟的日期,而 raw_analys_tratings 只是没有小时或分钟的那一天。



注意

  • 数据爬自benzinga.com,新闻内容版权归Benzinga所有。



广而告之