aturbofly 2015-02-27 07:31 采纳率: 33.3%
浏览 2272
已结题

jsoup解析网页时“www”变成“m”的问题

Document doc = Jsoup.connect(website).get();
其中 website="http://www.huxiu.com/photo".
这个网址可以打开。
但是解析后报这样的错:

org.jsoup.HttpStatusException: HTTP error fetching URL. Status=404, URL=http://m.huxiu.com/photo
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:435)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:446)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:410)
at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:164)
at org.jsoup.helper.HttpConnection.get(HttpConnection.java:153)
at com.coship.crawler.crawler.parser.huxiu.HuxiuHomeProcessor.processor(HuxiuHomeProcessor.java:38)
at com.coship.crawler.crawler.work.FetchWorker.startDealJob(FetchWorker.java:76)
at com.coship.crawler.crawler.work.FetchWorker.run(FetchWorker.java:37)
at java.lang.Thread.run(Thread.java:662)
问题来了:明明是“http://www.huxiu.com/photo”,怎么就变成了“http://m.huxiu.com/photo”了呢?

  • 写回答

1条回答 默认 最新

  • AgileGeek 2015-03-03 08:59
    关注

    应该是网站的bug,可以尝试如下代码跳过该问题:
    Jsoup.connect("http://www.huxiu.com/photo").header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.111 Safari/537.36").get()

    评论

报告相同问题?

悬赏问题

  • ¥15 如何让企业微信机器人实现消息汇总整合
  • ¥50 关于#ui#的问题:做yolov8的ui界面出现的问题
  • ¥15 如何用Python爬取各高校教师公开的教育和工作经历
  • ¥15 TLE9879QXA40 电机驱动
  • ¥20 对于工程问题的非线性数学模型进行线性化
  • ¥15 Mirare PLUS 进行密钥认证?(详解)
  • ¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
  • ¥20 想用ollama做一个自己的AI数据库
  • ¥15 关于qualoth编辑及缝合服装领子的问题解决方案探寻
  • ¥15 请问怎么才能复现这样的图呀