更新时间:2021年05月21日18时40分 来源:传智教育 浏览次数:
一般情况下,在选择是使用多进程还是多线程时,主要考虑的业务到底是IO密集型(多线程)还是计算密集型(多进程)。在爬虫中,请求的并发业务属于是网络的IO类型业务,因此网络并发适宜使用多线程;但特殊需求下,比如使用phantomjs 或者chrome-headless来抓取的爬虫,应当是多进程的,因为每一个phan/chro实例就是一个进程了,并发只能是多进程。此外爬虫中还是数据处理业务,如果数据处理业务是一个比较耗时的计算型操作,那么对数据处理部分应当设为多进程,但更多可能会考虑将该部分数据处理操作和爬虫程序解耦,也就是先把数据抓取下来,事后单独运行另外的程序解析数据。
Python兴趣课程,0基础Python 3天入门课程
·了解Python主流就业方向,把握最新热点技术
·掌握Python的基础语法及API调用
·能够使用Python对数据获取、使用和展示
·打造自己的数据分析项目并自动生成工作报告