项目要求是抓取其他网站的文章信息,包括点击量,回复量等,可这些数据一般都是动态的,如果指定抓取某一个网站的数据我还可以搞定,分析一下js代码或是用firebug类的工具看一下页面生成过程中请求和响应信息等,然后再模拟http请求,解析一下响应基本就搞定了。 但是现在要求是随便输个网站 ,只要有文章 、帖子什么的就可以抓下来,这样就不能挨个去分析代码了,这种情况改怎么实现呢?求大神给个思路,实在想不到办法了。
另外负责采集信息的操作人员可以承担一些工作,不一定做成全自动的,比如可以提供待抓取网站的一些信息,但不能太多太复杂。
抓取其他网站动态数据
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
2条回答 默认 最新
- jinnianshilongnian 2012-09-24 19:16关注
这个做不到。。 除非大家都是discuz等
如果网站是自家写的 连人可能都不知道点击量/回复量在哪 机器怎么知道 还有些可能不显示点击/回复量。 不可能这么智能
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥20 西门子S7-Graph,S7-300,梯形图
- ¥50 用易语言http 访问不了网页
- ¥50 safari浏览器fetch提交数据后数据丢失问题
- ¥15 matlab不知道怎么改,求解答!!
- ¥15 永磁直线电机的电流环pi调不出来
- ¥15 用stata实现聚类的代码
- ¥15 请问paddlehub能支持移动端开发吗?在Android studio上该如何部署?
- ¥20 docker里部署springboot项目,访问不到扬声器
- ¥15 netty整合springboot之后自动重连失效
- ¥15 悬赏!微信开发者工具报错,求帮改