首先,感谢您的回答。
最近要写一个关于对多个网站的信息(新闻),进行抓取工作?
有人有这方面的经验可以谈谈吗?
[b]问题补充:[/b]
主要是多个不同的网站,他们的风格不一样,有没有什么简便的方法,不用每个都去解析!我听说,用模板可以!但是没有用过!
[b]问题补充:[/b]
我以前也用过htmlparse抓数据,但是是抓一个网站的内容,但是现在我要抓几十个网站的内容,不可能每个网站去分析吧?我看您的网站就是抓了很多个网站的新闻,不是吗?可以说说您的思路吗?
首先,感谢您的回答。
最近要写一个关于对多个网站的信息(新闻),进行抓取工作?
有人有这方面的经验可以谈谈吗?
[b]问题补充:[/b]
主要是多个不同的网站,他们的风格不一样,有没有什么简便的方法,不用每个都去解析!我听说,用模板可以!但是没有用过!
[b]问题补充:[/b]
我以前也用过htmlparse抓数据,但是是抓一个网站的内容,但是现在我要抓几十个网站的内容,不可能每个网站去分析吧?我看您的网站就是抓了很多个网站的新闻,不是吗?可以说说您的思路吗?
这个没有办法,没有网站可以说你不分析它的代码你就能抓到它的内容的,除非这些网站都是一样的。
我曾经也有做过这样的尝试,但是最基本的底线,还是要配置,跟模板的思路很像。我用xml来做配置,这是我做的一个抓取工具,你或许可以看看。
[url]http://code.google.com/p/playfish/[/url]
这个工具在一些用java做抓取的圈里还有点名气,大概也有几千的下载量。呵呵。
PS:上面显示的6万多的下载量是假的,因为有的人用迅雷下载。