网页抓取时,如何判断一个页面是导航页面,还是内容页面

在做网页抓取的时候,我想先判断这个网页是导航页面(目录页面),还是内容页面

例如 http://sky.news.sina.com.cn/ 这是一个导航页面

http://sky.news.sina.com.cn/2013-10-10/094444474.html 这是一个正文页面

可以通过url进行判断我知道的,能不能通过分析页面源代码进行判断啊,比如说正文字数,主要区域链接个数等等
谢谢大家,请给点思路

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问