Benedicted 2022-03-11 15:54 采纳率: 0%
浏览 200

Requests爬取百度搜索页面,只要带param参数就返回百度安全验证,不带参数就能成功

记一次疑问:在使用requests库爬取百度搜索关键字结果页面时,使用完整关键字url就能返回成功,若使用param参数将关键字加载在get()内即返回百度安全验证页面,爬取失败。具体是什么原因?

问题相关代码,请勿粘贴截图

使用完整url,可爬取成功代码:

-- coding:utf-8 --

import requests
if name =="main":
headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.9',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
}

keyword = input("enter a  word:")
url = 'https://www.baidu.com/s?'+'wd='+keyword
response = requests.get(url=url , headers=headers)
response.encoding='utf-8'
page_text = response.text
filename = 'python.html'
with open(filename,'w',encoding='utf-8') as fp:
    fp.write(page_text)
    print(filename,"保存成功!!")

使用param参数,返回失败代码:

-- coding:utf-8 --

import requests
if name =="main":
headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.9',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
}

kw = input("enter a  word:")
param ={
    'param':kw
}
url = 'https://www.baidu.com/s?wd'
response = requests.get(url=url ,params=param, headers=headers)
response.encoding='utf-8'
page_text = response.text
filename = 'python.html'
with open(filename,'w',encoding='utf-8') as fp:
    fp.write(page_text)
    print(filename,"保存成功!!")

失败结果:

img

分别尝试过使用param和未使用param,结果不一样。但是搜狗不论加不加param都可以访问。加了Accept仍然没用,区别就在requests.get()里面,不知道具体原因是什么。

想知道到底是为啥,百度用的反爬是啥逻辑

  • 写回答

2条回答 默认 最新

  • CSDN专家-showbo 2022-03-11 16:08
    关注

    关键字键名称搞错了,是wd,不是param

    img

    img

    import requests
    
    headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
    }
    
    kw = input("enter a  word:")
    param ={
        'wd':kw
    }
    url = 'https://www.baidu.com/s'
    response = requests.get(url=url ,params=param, headers=headers)
    response.encoding='utf-8'
    page_text = response.text
    filename = 'python.html'
    with open(filename,'w',encoding='utf-8') as fp:
        fp.write(page_text)
        print(filename,"保存成功!!")
    
    

    img

    评论 编辑记录

报告相同问题?

问题事件

  • 创建了问题 3月11日

悬赏问题

  • ¥15 使用dify通过OpenAI 的API keys添加OpenAI模型时报了“Connection Error”错误
  • ¥15 请帮我看一下问题出在哪里
  • ¥15 如何解决图中的问题,localhost现实无法访问此页面
  • ¥40 想找个软件,但我不知道怎么找到它,我甚至不知道有没有
  • ¥15 怎么把60秒的视频时长改成显示0秒?且视频内容没有任何变化的正常播放?目的是为了解决一些平台对视频时长的要求,最好有自动处理的工具!
  • ¥15 累加器设初值为00H
  • ¥15 webAPI接口返回值判断
  • ¥15 自动化测试 UI Automtion
  • ¥20 关于#深度学习#的问题:2708)输出:邻接矩阵A 或者 节点索引方式:通过随机游走或者其他方式,保持节点连接类似下图(语言-python)
  • ¥15 win11 24h2 专业工作站版 右键打印怎样删除