hook_1 2014-09-05 09:39 采纳率: 0%
浏览 1589

用httpclient或者htmlunit解析这个网页是无法获取到内容

用httpclient或者htmlunit解析这个网页是无法获取到内容,
http://www.hfr.cc/forum.php?mod=viewthread&tid=88379&extra=page%3D1
这个帖子是英文的,如果是中文的就能获取到主贴的内容,
有谁知道这是为什么,有什么方法可以解决的吗?

  • 写回答

1条回答

  • ChatGPTᴼᴾᴱᴺᴬᴵ 2023-02-28 13:30
    关注

    该回答引用ChatGPT

    可能是因为该网站的内容是动态生成的,而不是静态的。许多网站使用 JavaScript 和 AJAX 技术动态生成页面内容,这使得使用 HttpClient 或 HtmlUnit 等工具很难从页面中提取内容。这些工具只能获取页面的初始 HTML 代码,而无法获取动态生成的内容。


    解决此问题的方法之一是使用一个支持 JavaScript 的爬虫框架,例如 Selenium 或 PhantomJS。这些框架可以模拟浏览器行为,使您能够获取页面的完整内容,包括动态生成的内容。


    另一个解决方法是直接使用该网站的 API 接口,如果该网站提供 API 接口,那么您可以通过 API 接口获取所需的数据。这是一种更加可靠和有效的方法,因为 API 接口通常是为了提供可靠和可重复的数据访问而设计的。

    评论

报告相同问题?

悬赏问题

  • ¥15 深度学习根据CNN网络模型,搭建BP模型并训练MNIST数据集
  • ¥15 lammps拉伸应力应变曲线分析
  • ¥15 C++ 头文件/宏冲突问题解决
  • ¥15 用comsol模拟大气湍流通过底部加热(温度不同)的腔体
  • ¥50 安卓adb backup备份子用户应用数据失败
  • ¥20 有人能用聚类分析帮我分析一下文本内容嘛
  • ¥15 请问Lammps做复合材料拉伸模拟,应力应变曲线问题
  • ¥30 python代码,帮调试,帮帮忙吧
  • ¥15 #MATLAB仿真#车辆换道路径规划
  • ¥15 java 操作 elasticsearch 8.1 实现 索引的重建