一、明确需求 找一个弹幕比较多的视频爬取 二、网页数据分析 以前的B站弹幕视频,点击查看历史的弹幕,会给你返回一个json数据,包含了所有的弹幕内容。 现在点击历史弹幕数据,同样是有数据加载出来,但是里面的都是乱码了。 请求这个链接还是会得到想要的数据内容。 只需要使用正则表达匹配中文字符就可以匹配出来 三、解...
部分视频信息需要登录(即需要 SESSDATA )后才能使用(如历史弹幕获取)。 对视频进行点赞、投币等用户操作则需要 SESSDATA 和 csrf 。 关于SESSDATA 和 csrf 获取的详细方法,可参考如下链接: https://github.com/Passkou/bilibili_api/wiki/SESSDATA和CSRF获取方法(Chrome为例) 2)获取弹幕数据 创建VideoInfo对象,传入...
历时一年后,我们重新开始设计了Bilibili下载器,取消了对you_get的依赖,批量爬取,大幅度提升了速度,并重新设计了数据模型,支持爬取视频及其附加信息、弹幕、评论、用户动态、关注、被关注、相册和收藏夹并添加到sqlite数据库中,爱怎么爬怎么爬。欢迎fork、star支持! 功能介绍 在worker.py脚本中有两个强大的类,Green...