a499538194 2012-09-24 18:32
浏览 212
已采纳

抓取其他网站动态数据

项目要求是抓取其他网站的文章信息,包括点击量,回复量等,可这些数据一般都是动态的,如果指定抓取某一个网站的数据我还可以搞定,分析一下js代码或是用firebug类的工具看一下页面生成过程中请求和响应信息等,然后再模拟http请求,解析一下响应基本就搞定了。 但是现在要求是随便输个网站 ,只要有文章 、帖子什么的就可以抓下来,这样就不能挨个去分析代码了,这种情况改怎么实现呢?求大神给个思路,实在想不到办法了。
另外负责采集信息的操作人员可以承担一些工作,不一定做成全自动的,比如可以提供待抓取网站的一些信息,但不能太多太复杂。

  • 写回答

2条回答 默认 最新

  • jinnianshilongnian 2012-09-24 19:16
    关注

    这个做不到。。 除非大家都是discuz等

    如果网站是自家写的 连人可能都不知道点击量/回复量在哪 机器怎么知道 还有些可能不显示点击/回复量。 不可能这么智能

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥20 西门子S7-Graph,S7-300,梯形图
  • ¥50 用易语言http 访问不了网页
  • ¥50 safari浏览器fetch提交数据后数据丢失问题
  • ¥15 matlab不知道怎么改,求解答!!
  • ¥15 永磁直线电机的电流环pi调不出来
  • ¥15 用stata实现聚类的代码
  • ¥15 请问paddlehub能支持移动端开发吗?在Android studio上该如何部署?
  • ¥20 docker里部署springboot项目,访问不到扬声器
  • ¥15 netty整合springboot之后自动重连失效
  • ¥15 悬赏!微信开发者工具报错,求帮改