a499538194 2012-09-24 18:32
浏览 212
已采纳

抓取其他网站动态数据

项目要求是抓取其他网站的文章信息,包括点击量,回复量等,可这些数据一般都是动态的,如果指定抓取某一个网站的数据我还可以搞定,分析一下js代码或是用firebug类的工具看一下页面生成过程中请求和响应信息等,然后再模拟http请求,解析一下响应基本就搞定了。 但是现在要求是随便输个网站 ,只要有文章 、帖子什么的就可以抓下来,这样就不能挨个去分析代码了,这种情况改怎么实现呢?求大神给个思路,实在想不到办法了。
另外负责采集信息的操作人员可以承担一些工作,不一定做成全自动的,比如可以提供待抓取网站的一些信息,但不能太多太复杂。

  • 写回答

2条回答 默认 最新

  • jinnianshilongnian 2012-09-24 19:16
    关注

    这个做不到。。 除非大家都是discuz等

    如果网站是自家写的 连人可能都不知道点击量/回复量在哪 机器怎么知道 还有些可能不显示点击/回复量。 不可能这么智能

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?