Requests爬取百度搜索页面，只要带param参数就返回百度安全验证，不带参数就能成功

记一次疑问：在使用requests库爬取百度搜索关键字结果页面时，使用完整关键字url就能返回成功，若使用param参数将关键字加载在get（）内即返回百度安全验证页面，爬取失败。具体是什么原因？

问题相关代码，请勿粘贴截图

使用完整url，可爬取成功代码：

-- coding:utf-8 --

import requests
if name =="main":
headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.9',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
}

keyword = input("enter a  word:")
url = 'https://www.baidu.com/s?'+'wd='+keyword
response = requests.get(url=url , headers=headers)
response.encoding='utf-8'
page_text = response.text
filename = 'python.html'
with open(filename,'w',encoding='utf-8') as fp:
    fp.write(page_text)
    print(filename,"保存成功！！")

使用param参数，返回失败代码：

-- coding:utf-8 --

kw = input("enter a  word:")
param ={
    'param':kw
}
url = 'https://www.baidu.com/s?wd'
response = requests.get(url=url ,params=param, headers=headers)
response.encoding='utf-8'
page_text = response.text
filename = 'python.html'
with open(filename,'w',encoding='utf-8') as fp:
    fp.write(page_text)
    print(filename,"保存成功！！")

失败结果：

分别尝试过使用param和未使用param，结果不一样。但是搜狗不论加不加param都可以访问。加了Accept仍然没用，区别就在requests.get（）里面，不知道具体原因是什么。

想知道到底是为啥，百度用的反爬是啥逻辑

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

CSDN专家-showbo 2022-03-11 16:08

关注

关键字键名称搞错了，是wd，不是param

import requests

headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.9',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
}

kw = input("enter a  word:")
param ={
    'wd':kw
}
url = 'https://www.baidu.com/s'
response = requests.get(url=url ,params=param, headers=headers)
response.encoding='utf-8'
page_text = response.text
filename = 'python.html'
with open(filename,'w',encoding='utf-8') as fp:
    fp.write(page_text)
    print(filename,"保存成功！！")

编辑记录

报告相同问题？

关注问题

使用python requests爬取百度图片的时候报错，不知道是哪里的问题 python 有问必答
2021-09-14 08:08

回答 2 已采纳主要是因为tn参数（你的代码写成n了，少了t）没传，接口返回404的html了，而不是返回查询结果内容。更正参数名称为tn就可以了。做采集的时候参数名一定不能写错，还有一些请求头也需要加上，如user
如何用Python3爬取百度百科(最好lxml+requests，当然别的也行）？ python
2021-04-28 20:55

回答 1 已采纳基本问题，爬数的时候，模拟一下头文件浏览器打开 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWe
python爬虫爬取百度文库 python 有问必答
2021-05-09 14:36

回答 4 已采纳 Network中找不到试试在doc里面能不能找到
requests基操/爬取调用百度翻译
2020-06-28 23:39

冷风的云的博客因为最近使用pandas 和numpy,所以就研究下requests库，毕竟这是目前python最流行的http请求库，也是最符合pythonic的库，有时间也准备看源码学习下，不过前一阵看到一个httpx第三方库，支持了更加丰富的API调用，比...
python request post请求的请求参数怎么能不带“ python
2022-12-15 10:52

回答 3 已采纳这篇博客也许可以解决你的问题👉 ：python request post 列表的方法
Python requests.post方法爬取携程酒店获取不到数据 python
2021-07-28 11:42

回答 3 已采纳我猜请求头里面一定有数据是动态变化的，并且要做验证，你得知道它是如何加密的那些数据~
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，直到遍历完所有节点。特点递归：通常用递归实现，或者使用栈来模拟递归过程。...
Python利用requests爬取网页遇到的payload问题 python 有问必答爬虫
2021-08-13 14:31

回答 4 已采纳网站多少
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
关于百度地图API上数据的爬取地理编码和逆地理编码不匹配的问题 python 有问必答百度
2022-02-23 16:57

回答 2 已采纳百度地图不支持国外吧？最好是用bing地图来做，如果你在国外用谷歌更加好。。国内你懂的。。bing地图地址得到经纬度api：必应地图开放平台 | 必应地图API SDK
Python 爬虫之爬取百度贴吧内容的封装、输入贴吧主题即可对应爬取
2020-02-08 11:30

仙魁XAN的博客 Python 爬虫之爬取百度贴吧内容的封装、输入贴吧主题即可对应爬取目录 Python 爬虫之爬取百度贴吧内容的封装、输入贴吧主题即可对应爬取一、简单介绍二、知识点三、效果预览四、实现步骤五、关键...
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
python3爬取带密码的网站_Python3网络爬虫开发实战之使用代理爬取微信公众号文章...
2020-12-07 12:10

weixin_39627699的博客 1.本节目标我们的主要目标是利用代理爬取微信公众号的文章，提取正文、发表日期、公众号等内容，爬取来源是搜狗微信，其链接为...这里需要用的 Python 库有 aiohttp、requests、redis-py、pyquery、Flask、PyMySQL，...
python 爬虫--利用百度图片处理OCR识图API进行验证码识别，并通过python、requests进行网站信息爬取（二）实战
2019-06-13 20:21

千码君2016的博客上一篇提到了调用的基础代码，写的很low啊，大家要是有啥...一、待爬取网站调研 1、基本信息 2、我们想要实现的基本目的 3、关于基本目的实现的简单说明二、代码实现部分 1、一些基础参数的设置 2、程序主...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月11日

悬赏问题

¥15 使用dify通过OpenAI 的API keys添加OpenAI模型时报了“Connection Error”错误
¥15 请帮我看一下问题出在哪里
¥15 如何解决图中的问题，localhost现实无法访问此页面
¥40 想找个软件，但我不知道怎么找到它，我甚至不知道有没有
¥15 怎么把60秒的视频时长改成显示0秒？且视频内容没有任何变化的正常播放？目的是为了解决一些平台对视频时长的要求，最好有自动处理的工具！
¥15 累加器设初值为00H
¥15 webAPI接口返回值判断
¥15 自动化测试 UI Automtion
¥20 关于#深度学习#的问题：2708）输出：邻接矩阵A 或者节点索引方式：通过随机游走或者其他方式，保持节点连接类似下图(语言-python)
¥15 win11 24h2 专业工作站版右键打印怎样删除

Requests爬取百度搜索页面，只要带param参数就返回百度安全验证，不带参数就能成功

问题相关代码，请勿粘贴截图

-- coding:utf-8 --

-- coding:utf-8 --

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新