闯出一片天 2021-07-14 10:26 采纳率: 100%
浏览 63
已采纳

python爬虫需要学习哪些语言

最近想学习python爬虫,拓展一下知识储备,爬虫需要学习哪些语言

  • 写回答

3条回答 默认 最新

  • CSDN专家-sinJack 2021-07-14 10:32
    关注

    参考:https://www.cnblogs.com/cherish-cxh/p/10025979.html
    熟悉多线程编程、网络编程、HTTP协议相关
    开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到)
    反爬相关,cookie、ip池、验证码等等
    熟练使用分布式
    了解企业级爬虫和个人爬虫的差异(企业级爬虫,首先在数据量上跟我们平时学习的时候爬虫,不是同一数量级,数据量大很多。其次,企业级爬虫代码一般部署到专门的爬虫服务器上,采取7*24小时运行,所以需要日志监控,异常维护。)

    知道什么是深度优先,广度优先的抓取算法,及实践中的使用规则;

    能分析简单网站的结构,会使用urllib,urllib2或requests库进行简单的数据抓取;
    如有帮助望采纳。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 已采纳回答 7月15日
  • 创建了问题 7月14日

悬赏问题

  • ¥15 硬盘识别不了,需要初始化,可我的数据怎么办
  • ¥15 lvm2被mask了,怎么unmask都没用(标签-ubuntu|关键词-apt)
  • ¥15 交叉注意力机制的残差问题
  • ¥15 微信小程序:渲染收货地址时页面不显示
  • ¥20 win7 64位DirectShow提示初始化失败如何解决?
  • ¥20 小规模孤立词识别系统设计
  • ¥15 关于Java对接海康威视车牌识别一体机SDK是否需要固定外网的IP?
  • ¥15 Linux扩容时,格式化卡住了:vgdispaly查看卷组信息,没有输出
  • ¥18 关于#ubuntu#的问题:使用背景-工作职责内有七八台ubuntu系统的电脑,平时需要互相调取资料,想实现把这几台电脑用交换机组成一个局域网,来实现指定文件夹的互相调取和写入
  • ¥20 求一个简易射频信号综测仪