wangke_kobe8 2013-10-11 06:37 采纳率: 0%
浏览 1257

网页抓取时,如何判断一个页面是导航页面,还是内容页面

在做网页抓取的时候,我想先判断这个网页是导航页面(目录页面),还是内容页面

例如 http://sky.news.sina.com.cn/ 这是一个导航页面

http://sky.news.sina.com.cn/2013-10-10/094444474.html 这是一个正文页面

可以通过url进行判断我知道的,能不能通过分析页面源代码进行判断啊,比如说正文字数,主要区域链接个数等等
谢谢大家,请给点思路

  • 写回答

0条回答

    报告相同问题?

    悬赏问题

    • ¥15 安卓adb backup备份应用数据失败
    • ¥15 eclipse运行项目时遇到的问题
    • ¥15 关于#c##的问题:最近需要用CAT工具Trados进行一些开发
    • ¥15 南大pa1 小游戏没有界面,并且报了如下错误,尝试过换显卡驱动,但是好像不行
    • ¥15 没有证书,nginx怎么反向代理到只能接受https的公网网站
    • ¥50 成都蓉城足球俱乐部小程序抢票
    • ¥15 yolov7训练自己的数据集
    • ¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)(相关搜索:51单片机|单片机|测试代码)
    • ¥15 电力市场出清matlab yalmip kkt 双层优化问题
    • ¥30 ros小车路径规划实现不了,如何解决?(操作系统-ubuntu)