wangke_kobe8 2013-10-11 06:37 采纳率: 0%
浏览 1257

网页抓取时,如何判断一个页面是导航页面,还是内容页面

在做网页抓取的时候,我想先判断这个网页是导航页面(目录页面),还是内容页面

例如 http://sky.news.sina.com.cn/ 这是一个导航页面

http://sky.news.sina.com.cn/2013-10-10/094444474.html 这是一个正文页面

可以通过url进行判断我知道的,能不能通过分析页面源代码进行判断啊,比如说正文字数,主要区域链接个数等等
谢谢大家,请给点思路

  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥15 素材场景中光线烘焙后灯光失效
    • ¥15 请教一下各位,为什么我这个没有实现模拟点击
    • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
    • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
    • ¥20 有关区间dp的问题求解
    • ¥15 多电路系统共用电源的串扰问题
    • ¥15 slam rangenet++配置
    • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
    • ¥15 ubuntu子系统密码忘记
    • ¥15 保护模式-系统加载-段寄存器