tushare是一个股票行情数据接口,通过它能获取到大量的股票数据,数据一多,必然影响爬取速度,本章我要展示的是在同步、asyncio和线程池三种情况下去爬tushare六支差不多一年的历史分笔数据 同步 同步是在一个多线程下执行,程序按照代码执行顺序一个一个来,不会乱掉,更不会出现代码没有执行完就执行下面的代码, impor...
进程: 对于耗费cpu的操作,多进程优于多线程 对于io操作来说,多线程优于多进程 多进程间通信: multiprocessing中的queue不能用于pool进程池 pool中的进程间通信需要使用manager中的queue 通过pipe实现进程间通信
对于计算密集型的python多线程来说,无法利用到多线程带来的效果, 在2.7时计算密集型的python多线程执行效率比顺序执行的效率还低的多,在python3.5中对这种情况进行了优化,基本能实现这种多线程执行时间和顺序执行时间差不多的效果。 对于I/O密集型的python多线程来说,GIL的影响不是很大,因为I/O密集型的python多线程...
requests + 线程池 200并发 + 不使用请求连接池 + 请求https (注意是https,不是http) 平均每秒秒请求完成120次。 测试方案9 aiohttp + asyncio 200并发 + 使用请求连接池 + 请求https (注意是https,不是http) 平均每秒秒请求完成990次。 测试方案10 aiohttp + asyncio 200并发 + 使用请求连接池 + 请求http ...