Python爬虫requests.get方法无法显示div中折叠内容

问题遇到的现象和发生背景

如题，我希望获得完整的request返回并爬取某div标签内内容，然而我通过beautifulsoup发现该部分的div内容被省略掉了

问题相关代码

import csv
import time
import requests
import urllib.parse
from lxml import etree
import useragent
from bs4 import BeautifulSoup

page_num = 1
for i in range(1,52):

    url = "https://www.xuetangx.com/search?query=&org=&classify=1&type=&status=&page={}".format(page_num)
    headers = {
            'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36 Edg/96.0.1054.34',
            'method' : 'POST',
    }
    cookieStr = '_ga=GA1.2.1190422675.1612939709; sensorsdata2015jssdkcross={"distinct_id":"17d3d83d4df9bc-0950b2ac5a2dee8-561a1154-1327104-17d3d83d4e0e26","first_id":"","props":{"$latest_traffic_source_type":"直接流量","$latest_search_keyword":"未取到值_直接打开","$latest_referrer":""},"$device_id":"17d3d83d4df9bc-0950b2ac5a2dee8-561a1154-1327104-17d3d83d4e0e26"}; provider=xuetang; _gid=GA1.2.1824666357.1638002159; django_language=zh; JG_016f5b1907c3bc045f8f48de1_PV=1638008153767|1638009299317'
    cookieStr = cookieStr.encode("utf-8").decode("latin-1")
    cookies = {
        'Cookie' : cookieStr
    }
    res = requests.get(url,headers = headers,cookies = cookies).text
    dom = etree.HTML(res)

    for list_num in range(2, 10):
        result = []
        # result.append(dom.xpath('//*[@id="app"]/div/div[2]/div[1]/div[1]/div[2]/div[1]/div[2]/div[2]/p[1]/span[1]/text()'.format(list_num)))
        # result.append(dom.xpath('/html/body/div[1]/div/div[2]/div[1]/div[1]/div[2]/div[1]/div[{}]/div[2]/p[2]/span[1]'.format(list_num)))
        # result.append(dom.xpath('/html/body/div[1]/div/div[2]/div[1]/div[1]/div[2]/div[1]/div[{}]/div[2]/p[2]/span[2]/span'.format(list_num)))
        # result.append(dom.xpath('/html/body/div[1]/div/div[2]/div[1]/div[1]/div[2]/div[1]/div[{}]/div[2]/p[2]/span[3]/text()'.format(list_num)))
        soup = BeautifulSoup(res)
        print(soup.prettify())
        print(soup.select('div'))

        print(result)

我的解答思路和尝试过的方法

尝试过在get方法中添加header和cookie，无果，问题并非在于无法返回而在于返回结果不全。希望这个问题能够被解决。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-11-27 19:45
关注
该页面数据是动态加载的，需要用此链接用post请求去获取
https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

[特殊字符] Python爬虫实战：高效抓取知乎问答全文（含折叠内容处理）
2025-04-30 11:38

Python爬虫项目的博客本项目展示了如何构建一个完整的知乎问答爬虫系统，从网页解析到内容提取，再到数据存储与防反爬机制应对，全流程涵盖实战技能。增加数据库持久化支持（如 MongoDB、SQLite）；接入代理池，分布式爬取多个问答；自动...
Python爬虫微博话题下的微博内容
2024-05-24 20:55

爱喝奶青的博客，找到这里的内容后，返回PyCharm中对代码中对应的内容进行修改。另外，要爬取的页数也可以自己修改，修改参数p就可以。99%的内容参考的大佬文章代码，我简单表述一点，方便各位小白使用。中的话题内容改为自己想要...
Python爬虫第一课：了解爬虫与浏览器原理
2022-10-15 15:05

DangerousPerson的博客浏览器工作原理爬虫工作原理爬虫的四个步骤requests库。
Python网络爬虫在电商商品标题关键词优化分析中的应用
2025-09-10 10:52

Python爬虫项目的博客本文探讨了如何利用Python网络爬虫技术获取电商平台商品数据，并通过数据分析...关键词：Python爬虫、关键词优化、电商数据分析、SEO、自然语言处理网络爬虫是一种自动提取网页内容的程序，是搜索引擎的重要组成部分。
Python爬虫：爬取文字（笔趣阁小说）
2024-02-13 13:56

big不灵.的博客 python爬虫，爬取文章文字，单章爬取多章爬取。
requests模块
2022-08-14 15:52

BoenstudyBioMed的博客爬虫学习的一些笔记，不定时更新
关于用python爬虫白嫖漫画这档子事
2022-11-16 16:33

GaspardR的博客 python使用selenium和requests爬取漫画
Python爬虫实战：利用最新技术高效提取嵌套表格数据
2025-07-21 10:23

Python爬虫项目的博客比传统Requests更强大的HTML解析能力Playwright：微软开源的现代化浏览器自动化工具Parsel：Scrapy底层选择器库，支持高级XPathPandas：数据处理与分析Asyncio：异步IO处理提升效率本文详细介绍了使用Python最新技术...
python requests 动态加载_Python获取网页中动态加载的数据
2020-11-29 09:21

weixin_40001245的博客 Python获取网页中动态加载的数据0、XHR 是什么？XHR是 XMLHttpRequest 对象。既Ajax功能实现所依赖的对象，在JQuery中的Ajax是对 XHR的封装。1、查看异步加载数据的RequestURL图片示例：2、查看图片在HTML页面中的...
Python爬虫入门实战（2）获取多个网页中指定的一组数据
2021-01-19 13:28

柯慕灵的博客本文代码片段和部分内容转载自Python123的木下瞳的专栏，由本人进行改动与整理，并且增加部分注释。上节我们是用各个方法获取一个页面中指定的一个内容，这次我们实现多个页面，同一组数据的获取。 1.BeautifulSoup...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月27日

Python爬虫requests.get方法无法显示div中折叠内容

问题遇到的现象和发生背景

问题相关代码

我的解答思路和尝试过的方法

2条回答 默认 最新

问题事件

2条回答默认最新