为什么python爬虫下载的网页源码不完整？

我用python的requests和bs4库提取百度的页面，为什么只提取出一小段文字呢？不知道是不是http和https的问题。我改成http就可以得到完整的源代码。如果是这个问题的话，应该怎么解决呢？

>>> r= requests.get("https://www.baidu.com/s?wd=s")
>>> r.text
'<html>\r\n<head>\r\n\t<script>\r\n\t\tlocation.replace(location.href.replace("https://","http://"));\r\n\t</script>\r\n</head>\r\n<body>\r\n\t<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>\r\n</body>\r\n</html>'

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
qq_41405601 2019-09-23 18:31
关注
打印r.status_code是成功的吗

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫爬虫的网站源码不齐全怎么办 python
2019-04-26 16:05

回答 1 已采纳现在都是动态网页,你爬取到的只是一个基本框架而已。你可以用f12 然后检测一下http请求，基本上获取到的都是第一个请求。后面的数据都是通过js修改后的网页。交互式的。所以要想做复杂爬虫，
Python爬虫只解析了一部分网页？ python 爬虫
2021-11-19 14:39

回答 1 已采纳第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。第二个问题
python爬取动态网页时为什么动态网页的url的源码和网页源码不一样？ html5 python 正则表达式
2020-01-30 18:11

回答 1 已采纳加载更多是通过ajax异步加载的请求的是 Request URL: https://cn.burberry.com/service/shelf/mens-new-arrivals-new-in/?
python爬虫爬网页部分内容空白，但源码可以看到，已解决
2020-12-22 19:08

曾尝试各种方法，没有效果。使用的是函数requests.get()，已写header、cookie、User-Agent，也写了rsp.encoding = rsp.apparent_encoding。...【仅为个人总结】 # 伪装成浏览器，防止封ip headers = { 'User
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
Python爬虫requests反还内容与网页内容不相同 python 有问必答
2022-03-08 22:50

回答 2 已采纳 requests.get得到的是源代码，ajax动态加载或者js动态生成的html代码获取不到，需要直接请求接口获取数据或者从源代码中找到js数据源进行解析。截图中右边块的数据接口为下面这个，直接re
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
基于python爬虫学习项目源码.zip
2023-09-23 17:51

基于python爬虫学习项目源码.zip基于python爬虫学习项目源码.zip基于python爬虫学习项目源码.zip基于python爬虫学习项目源码.zip基于python爬虫学习项目源码.zip基于python爬虫学习项目源码.zip基于python爬虫学习...
python爬虫获取源码与网页不同 python 爬虫
2017-09-29 14:07

回答 1 已采纳网页中有js脚本的话，可以在下载网页后动态修改/添加网页本身，也就是ajax
为什么爬取到的内容和网页上的不一样呢？求解决方法 python 爬虫
2022-05-12 17:10

回答 2 已采纳因为他是异步加载的。解决方法：1、一般爬取到的内容和网页上的不一样，可能是请求异常或者是异步加载导致的，需要去定位数据来源。2、打开控制台全局搜索151.4，发现没结果，那么继续搜索1514，发现有
写完python爬虫后运行不出结果 python 有问必答爬虫
2022-02-15 05:15

回答 3 已采纳数据是动态从接口获取的，在网页中没有办法直接获取，除非用 selenium模块结合浏览器爬取动态数据 # -*- coding:utf-8 -*- import pandas as pd impor
python 爬虫实例源码下载(pyspider).zip
2024-01-01 17:32

源码下载欢迎下载
电影天堂上的Python爬虫源码.zip
2023-08-26 10:49

电影天堂上的Python爬虫源码.zip电影天堂上的Python爬虫源码.zip电影天堂上的Python爬虫源码.zip电影天堂上的Python爬虫源码.zip电影天堂上的Python爬虫源码.zip电影天堂上的Python爬虫源码.zip电影天堂上的Python...
基于Python的网页爬虫设计源码
2024-04-16 10:33

本源码项目是基于Python的网页爬虫设计，包含60个文件，主要使用Python和HTML编程语言。该项目旨在帮助用户在大数据时代通过爬虫技术获取所需信息，包括微博正文、点赞数、转发数、评论数以及拉钩招聘信息等。爬虫...
Python爬虫下载搜狗图片源码
2021-11-10 23:10

通过Python写的下载搜狗图片的源码
没有解决我的问题, 去提问

悬赏问题

¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？

为什么python爬虫下载的网页源码不完整？

1条回答 默认 最新

悬赏问题

1条回答默认最新