2 qq 31146685 qq_31146685 于 2016.05.02 21:36 提问

webmagic如何批量爬取很多网站??(希望大神能够看问题详情在回答,谢谢各位大神了)

使用webmagic,怎么批量爬取一些网站(网站数量大概有100多个)??爬取的网站,爬出来的东西比较固定,大都是时间.内容,标题等等 ....难道要每个网站都手写一个类??有没有比较通用的方法,比如配置文件等方法解决???

3个回答

xlyytcywangfei
xlyytcywangfei   2016.06.02 17:13
已采纳

可以通过配置文件解决

qq_31146685
qq_31146685 回复qq_31146685: 有的爬取下一页什么的,还得自己拼凑参数等
大约 2 年之前 回复
qq_31146685
qq_31146685 我一开始也是用配置文件等去解决的,但是通用型不强,不同的网站,爬取的方式不同.
大约 2 年之前 回复
caozhy
caozhy   Ds   Rxr 2016.05.02 23:45
qq_31146685
qq_31146685 里面有文档,但是并没有批量爬取很多网站的例子
大约 2 年之前 回复
qq_31146685
qq_31146685   2016.06.07 11:28

我一开始也是做成配置文件的,但是通用性不强.

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
webMagic爬虫抓取某个博客全部文章名称
官方文档:点击打开链接 主要类: package testMagic; import java.util.List; import javax.management.JMException; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.
CSDN爬虫(六)——动态网页爬取的两种策略
CSDN爬虫(六)——动态网页爬取的两种策略说明 开发环境:jdk1.7+myeclipse10.7+win74bit+mysql5.5+webmagic0.5.2+jsoup1.7.2 爬虫框架:webMagic 建议:建议首先阅读webMagic的文档,再查看此系列文章,便于理解,快速学习:http://webmagic.io/ 开发所需jar下载(不包括数据库操作相关jar包):点我下载 该系
WebMagic爬取网站内容
WebMagic爬取网站内容一、WebMagic介绍          WebMagic是一个开源的Java爬虫框架,目标是简化爬虫的开发流程让开发者专注于逻辑功能的开发          WebMagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。1.1、原理介绍
从前端菜鸟到大神
联网的快速发展和激烈竞争,用户体验成为一个重要的关注点,导致专业前端工程师成为热门职业,各大公司对前端工程师的需求量都很大,要求也越来越高,优秀的前端工程师更是稀缺。个人感觉前端入门相对容易,但是也需要系统地认真学习,在打好基础后坚持学习,成为优秀前端工程师也只是时间问题。 学习任何知识最重要的都是兴趣,如果经过一段时间的学习感觉不喜欢,那可能强迫自己学习是很痛苦的,效果也不会好,毕竟这很可
webmagic爬取渲染网站
最近突然得知之后的工作有很多数据采集的任务,有朋友推荐webmagic这个项目,就上手玩了下。发现这个爬虫项目还是挺好用,爬取静态网站几乎不用自己写什么代码(当然是小型爬虫了~~|)。好了,废话少说,以此随笔记录一下渲染网页的爬取过程首先找到一个js渲染的网站,这里直接拿了学习文档里面给的一个网址,http://angularjs.cn/ 打开网页是这样的 查看源码是这样的   源
webmagic爬取百度知道的问答对并存到数据库
(1)定义数据库爬取的title:package shuju;public class baidu { private String author;// 编号 public String getAuthor() { return author; } public void setAuthor(String author) { this.aut
webmagic爬取方式
一:根据网页地址爬取并解析 适用于新闻网站爬取 二:分析网页中的get请求,对返回的数据进行解析 适用于微博、微信、贴吧 三:根据post请求爬取 查看网页源代码,找到post请求参数,伪造request进行爬取,用到的较少,分析起来相对麻烦 有的网站爬取需要注册登录,可以设定cookie进行登录,必要时可以添加代理;个别网站登录时没有验证码可以下载谷歌插件进行爬取。
vs2010+opencv2.4.9运行时候出现问题?求助各位
参考书目是OpenCV3 编程入门 程序是: # include using namespace cv; int main () { VideoCapture capture("1.avi"); while (1) { Mat frame; capture>>frame; imshow("reading video", frame); waitKey(60000);
大数据采集:爬虫框架之WebMagic的基本使用
大米锅巴加点盐 2017-01-21 22:14 webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。作为爬虫框架,它使用httpclient作为获
英语口语练习四十之地道口语:感谢及回应感谢的英语表达
表达感谢有很多英语运用方式:1.Thank you.谢谢作为最普遍的表达感谢的语句,与此相同的意思表达为Thanks。2.Thank you very much.非常感谢在Thank you 后面加上程度词,表达了对对方的感激程度之深,此外还有:Thanks a lot 非常感谢;Thank you so much 非常感谢;Thanks a bundle 非常感谢”a bundle”常作为量词,为