随缘56 2019-08-22 16:32 采纳率: 0%
浏览 212
已结题

webmagic输入的网址和加载的页面不匹配

我想加载京东的手机页面,网址上是这样
图片说明

而下载的页面没有手机,网址内容也和这个页面不一样,这是为什么

public class JdPageProcess implements PageProcessor{

    private Site site = Site.me().setRetryTimes(3).setSleepTime(100);
    public Site getSite() {
     return site;
    }

    @Override
    public void process(Page page) {
        System.out.println(page.getHtml().get());       
    }
    public static void main(String[] args) {
        String url="https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8";
         Spider.create(new JdPageProcess()).addUrl(url).run();
    }
}
  • 写回答

1条回答 默认 最新

  • FeiRouBing 2019-08-22 16:57
    关注

    Request Headers要处理一下,尤其是UserAgent要模仿个谷歌浏览器什么的。不然很容易被网站判断为爬虫的。诺大个京东如果连个防爬机制都没怎么也是说不过去的。

    评论

报告相同问题?

悬赏问题

  • ¥60 求一个简单的网页(标签-安全|关键词-上传)
  • ¥35 lstm时间序列共享单车预测,loss值优化,参数优化算法
  • ¥15 基于卷积神经网络的声纹识别
  • ¥15 Python中的request,如何使用ssr节点,通过代理requests网页。本人在泰国,需要用大陆ip才能玩网页游戏,合法合规。
  • ¥100 为什么这个恒流源电路不能恒流?
  • ¥15 有偿求跨组件数据流路径图
  • ¥15 写一个方法checkPerson,入参实体类Person,出参布尔值
  • ¥15 我想咨询一下路面纹理三维点云数据处理的一些问题,上传的坐标文件里是怎么对无序点进行编号的,以及xy坐标在处理的时候是进行整体模型分片处理的吗
  • ¥15 CSAPPattacklab
  • ¥15 一直显示正在等待HID—ISP