bee100 2009-03-17 15:12
浏览 439
已采纳

抓取多个网站的内容,用什么语言,什么框架?

首先,感谢您的回答。

最近要写一个关于对多个网站的信息(新闻),进行抓取工作?

有人有这方面的经验可以谈谈吗?
[b]问题补充:[/b]
主要是多个不同的网站,他们的风格不一样,有没有什么简便的方法,不用每个都去解析!我听说,用模板可以!但是没有用过!
[b]问题补充:[/b]
我以前也用过htmlparse抓数据,但是是抓一个网站的内容,但是现在我要抓几十个网站的内容,不可能每个网站去分析吧?我看您的网站就是抓了很多个网站的新闻,不是吗?可以说说您的思路吗?

  • 写回答

6条回答 默认 最新

  • playfish05 2009-03-17 16:01
    关注

    这个没有办法,没有网站可以说你不分析它的代码你就能抓到它的内容的,除非这些网站都是一样的。

    我曾经也有做过这样的尝试,但是最基本的底线,还是要配置,跟模板的思路很像。我用xml来做配置,这是我做的一个抓取工具,你或许可以看看。

    [url]http://code.google.com/p/playfish/[/url]

    这个工具在一些用java做抓取的圈里还有点名气,大概也有几千的下载量。呵呵。

    PS:上面显示的6万多的下载量是假的,因为有的人用迅雷下载。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(5条)

报告相同问题?

悬赏问题

  • ¥15 请问为什么我配置IPsec后PC1 ping不通 PC2,抓包出来数据包也并没有被加密
  • ¥200 求博主教我搞定neo4j简易问答系统,有偿
  • ¥15 nginx的使用与作用
  • ¥100 关于#VijeoCitect#的问题,如何解决?(标签-ar|关键词-数据类型)
  • ¥15 一个矿井排水监控系统的plc梯形图,求各程序段都是什么意思
  • ¥15 ensp路由器启动不了一直报#
  • ¥50 安卓10如何在没有root权限的情况下设置开机自动启动指定app?
  • ¥15 ats2837 spi2从机的代码
  • ¥200 wsl2 vllm qwen1.5部署问题
  • ¥100 有偿求数字经济对经贸的影响机制的一个数学模型,弄不出来已经快要碎掉了