python的requests爬虫返回了与原网页内容不符的javascript，如何解决？

我的课程作业需要爬取这个网址（http://guba.hzzkzx.com/list,002603,f_1.html）的数据，但是这个网站可能是有反爬虫机制，返回的不是原网页的内容，而是一个html，里面是带有这个网址的javascript。请问这个网站的反爬虫机制是怎样的？如何绕过？

程序源代码：

import requests
from bs4 import BeautifulSoup

headers={
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive',
    'Cookie': '__guid=84635791.2115898957883613700.1616987444460.9778; monitor_count=1',
    'DNT': '1',
    'Host': 'guba.hzzkzx.com',
    'Referer': 'http://guba.hzzkzx.com/list,002603,f_1.html',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}

def get_data(url):
    html=requests.get(url,headers=headers)
    soup=BeautifulSoup(html.text,'lxml')
    print(soup.prettify())

if __name__=='__main__':
    url="http://guba.hzzkzx.com/list,002603,f_1.html"
    get_data(url)

运行结果：

<html>
 <head>
  <script type="text/javascript">
   function f(){window.location.href="http://guba.hzzkzx.com/list,002603,f_1.html";}
  </script>
 </head>
 <body onload="f()">
  <img src="http://tieba.baidu.com/_PXCK_77735440797141500_1558696096.gif" style="display:none"/>
 </body>
</html>

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

python技巧(数据分析及可视化) 2021-03-29 11:33

关注

异步加载的问题, 可以使用selenium 工具包进行爬取, 可参考:

import pandas as pd
import numpy as np
import time
from selenium import webdriver
driver = webdriver.Chrome()

url = 'http://guba.hzzkzx.com/list,002603,f_1.html'
driver.get(url)
driver.implicitly_wait(10)

# 标题
names =  driver.find_elements_by_css_selector('#articlelistnew > div > span.l3.a3')
for i in names:
    print(i.text)

标题
求你跌停，大家都亏欠就完事
已经给你们上车的机会了！
刚才难道是诱多吗
无量上涨后期看跌
无量杀
庄控制的真高，收盘又是开盘价
以岭药业漫长的心电图模式，将持续下跌，合理价15元
久横必跌，机会来了
走势也就这样了，草图。
破不了60日线的压力位！！！
可怜可悲可叹可恨，浪费行情，累！
大盘红火，以岭拉稀，赶紧出台年报大分红吧，这么好基

需要先安装浏览器驱动等一些设置, 可搜索一些相关的帖子.

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

python的requests爬虫返回了与原网页内容不符的javascript，如何解决？ python
2021-03-29 11:19

回答 3 已采纳异步加载的问题, 可以使用selenium 工具包进行爬取, 可参考: import pandas as pd import numpy as np import time from seleni
用PYTHON 的 requests库请求一个post 状态码是200，但是返回内容是空 javascript python 爬虫
2022-07-16 17:00

回答 5 已采纳 body中的data参数是用urlencoded形式传过去的，用urlencode处理一下 import requests from urllib.parse import urlencode i
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python简单爬虫抓取新闻板块网页内容实例
2024-06-04 21:29

在Python编程领域，爬虫是一种常见的技术，用于自动地从互联网上抓取信息。本实例主要探讨如何使用Python编写一个简单的爬虫，针对中国稀土网的新闻中心国内新闻板块，抓取首页的新闻标题、发布时间、来源和正文。...
python爬虫中http.client.HTTPSConnection与request的使用 python 有问必答爬虫
2021-12-26 11:25

回答 2 已采纳用它的API啊，这样就省得怕被反爬了 https://docs.opensea.io/reference/api-overview
用python爬虫无法导出数据 json python 爬虫
2023-03-01 20:22

回答 3 已采纳回答不易，望采纳！这一行代码报错了应该是连页面内容都没有爬下来，后边更别谈格式化处理了。检查一下你的 cookie 是不是过期了吧
python 爬虫 js解析数据没问题 py中execjs 报错 javascript python
2023-03-08 13:26

回答 3 已采纳他还引用了另一个包，你一起弄进来
使用Python的Requests和Selenium与BeautifulSoup结合，以爬虫和解析网页内容.txt
2023-08-17 11:25

这个代码示例展示了如何使用Requests和Selenium与BeautifulSoup结合，以获取和解析网页内容。通过使用Selenium进行JavaScript渲染，可以处理那些需要JavaScript执行才能完全呈现的网页。这对于爬取动态网页和处理...
Python中scrapy.FormRequest老是返回400错误响应 python
2022-09-17 21:20

回答 2 已采纳你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
PYTHON etree无法获得数据 python 爬虫
2021-08-27 14:40

回答 2 已采纳代码书写没问题，是你ps = tree.xpath('//head/text()')匹配的原因。
python爬虫，为什么可以正常爬取数据，但程序还是走了为了提示报错而写的 except 里的内容？ python
2021-05-21 13:51

回答 1 已采纳那要看link和rank的长度是不是一样，这是索引越界了
Python网页爬虫程序框架
2024-03-01 21:45

Python网页爬虫程序框架常用的Python网页爬虫程序框架包括： Scrapy：Scrapy是一个强大的开源网络爬虫框架，提供了完整的爬虫流程管理，包括异步IO操作、多线程管理、反爬虫策略等功能。它支持XPath和CSS选择器...
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
跨越 JavaScript 迷宫：Python 爬虫处理动态页面的高级策略
2024-07-07 02:58

Python 爬虫，通常被称为 Python Spider 或 Python Web Scraper，是一种使用 Python 编程语言编写的自动化脚本或程序，用于从互联网上的网站提取信息。这种程序可以访问网页，解析页面内容，并从中提取出有用的数据...
Python爬虫案例1：爬取淘宝网页数据
2023-10-27 12:54

首先，Python爬虫的核心是利用Python的requests库来发送HTTP请求，获取网页的HTML源代码。在这个案例中，我们需要对淘宝的商品页面进行分析，了解其页面结构，找出商品信息如价格、评价、销量等在HTML中的位置。这...
没有解决我的问题, 去提问

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

码龄粉丝数原力等级 --

python的requests爬虫返回了与原网页内容不符的javascript，如何解决？

3条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

python的requests爬虫返回了与原网页内容不符的javascript，如何解决？

3条回答 默认 最新

悬赏问题

3条回答默认最新