2 wangke kobe8 wangke_kobe8 于 2013.10.11 14:37 提问

网页抓取时,如何判断一个页面是导航页面,还是内容页面

在做网页抓取的时候,我想先判断这个网页是导航页面(目录页面),还是内容页面

例如 http://sky.news.sina.com.cn/ 这是一个导航页面

http://sky.news.sina.com.cn/2013-10-10/094444474.html 这是一个正文页面

可以通过url进行判断我知道的,能不能通过分析页面源代码进行判断啊,比如说正文字数,主要区域链接个数等等
谢谢大家,请给点思路

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!