bee100 2009-03-17 15:12
浏览 439
已采纳

抓取多个网站的内容,用什么语言,什么框架?

首先,感谢您的回答。

最近要写一个关于对多个网站的信息(新闻),进行抓取工作?

有人有这方面的经验可以谈谈吗?
[b]问题补充:[/b]
主要是多个不同的网站,他们的风格不一样,有没有什么简便的方法,不用每个都去解析!我听说,用模板可以!但是没有用过!
[b]问题补充:[/b]
我以前也用过htmlparse抓数据,但是是抓一个网站的内容,但是现在我要抓几十个网站的内容,不可能每个网站去分析吧?我看您的网站就是抓了很多个网站的新闻,不是吗?可以说说您的思路吗?

  • 写回答

6条回答 默认 最新

  • playfish05 2009-03-17 16:01
    关注

    这个没有办法,没有网站可以说你不分析它的代码你就能抓到它的内容的,除非这些网站都是一样的。

    我曾经也有做过这样的尝试,但是最基本的底线,还是要配置,跟模板的思路很像。我用xml来做配置,这是我做的一个抓取工具,你或许可以看看。

    [url]http://code.google.com/p/playfish/[/url]

    这个工具在一些用java做抓取的圈里还有点名气,大概也有几千的下载量。呵呵。

    PS:上面显示的6万多的下载量是假的,因为有的人用迅雷下载。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(5条)

报告相同问题?

悬赏问题

  • ¥15 深度学习根据CNN网络模型,搭建BP模型并训练MNIST数据集
  • ¥15 lammps拉伸应力应变曲线分析
  • ¥15 C++ 头文件/宏冲突问题解决
  • ¥15 用comsol模拟大气湍流通过底部加热(温度不同)的腔体
  • ¥50 安卓adb backup备份子用户应用数据失败
  • ¥20 有人能用聚类分析帮我分析一下文本内容嘛
  • ¥15 请问Lammps做复合材料拉伸模拟,应力应变曲线问题
  • ¥30 python代码,帮调试,帮帮忙吧
  • ¥15 #MATLAB仿真#车辆换道路径规划
  • ¥15 java 操作 elasticsearch 8.1 实现 索引的重建