一、数据说明 ①包含2007-2021年所有的年报txt文件 ②年报关键词爬取的Python代码(两种) (1)基于Jieba分词库进行——适合同一类型的词频总数的统计,比如数字化转型一系列词频的统计。 (2)快速基本版本,直接在Python中输出关键词,爬取速度非常快,适合需要每个关键词词频的情况。 ③提供各个代码的使用说明 ④批量PDF...
需要爬取的数据如下图所示: 直接借助BeautifulSoup提取的这些数据,简单一些,源代码如下: 完整源代码详见个人主页或私信获取相关文件中的Spider.py文件。 运行效果截图如下: All done~ 数据分析 在数据爬取部分,我们共获得了3573条A股公司数据,下面我们就来简单地可视化分析一波吧~ 首先让我们来看看A股公司的区域分布吧...
需要爬取的数据如下图所示: 直接借助BeautifulSoup提取的这些数据,简单一些,源代码如下: 完整源代码详见个人主页或私信获取相关文件中的Spider.py文件。 运行效果截图如下: All done~ 数据分析 在数据爬取部分,我们共获得了3573条A股公司数据,下面我们就来简单地可视化分析一波吧~ 首先让我们来看看A股公司的区域分布吧...