在有标头的情况下，服务器是怎么区分浏览器和爬虫的？

程序源代码


import requests
import re

# 头部
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.40'}
url = 'https://815864.yichafen.com'


def ask(primary_url):
    # 爬
    got = requests.get(primary_url, headers=header)
    # 源代码
    text = got.text
    print(text)
    return text


def analysis(code):
    # 源代码
    source_code = code

    # 寻找超链接
    # 正则
    re_test_name = r'<a style="margin-left:10px;"\t\t\t\t\thref=".+" target="_blank">.{0,30}</a>'
    # 找
    results = re.findall(re_test_name, source_code)
    print(results)


def main():
    analysis(ask(url))


if __name__ == '__main__':
    main()

访问几次之后的结果，其中标红部分是每次都会改变的

但是在浏览器中不会被阻止

请问服务器是怎么区分浏览器和爬虫的？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-showbo 2021-11-02 20:41
关注
还有cookie，比如网站使用了session，会生成对应的cookie发送到客户端，如asp.net的ASP.NET_SessionId，php和jsp也有对应的cookie。

要保持是同一个请求，需要附带上cookie内容

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫系列02-伪装浏览器的爬虫
2024-11-16 15:57

@小g的博客那么想要将爬虫程序伪装成浏览器发送请求，需要在请求中添加User-Agent请求头，这里添加User-Agent内容可以通过上面截图位置获取数据，也可以通过上面给的网站，随便都可以使用。User-Agent：它用于向服务器提供关于...
Python爬虫系列（一）——手把手教你写Python爬虫
2021-10-23 15:47

纸照片的博客适合初学者快速上手入门，以爬取CSDN和百度图片为例。
python 爬虫入门一、基础工具
2024-10-16 11:21

i道i的博客二、通过python发送请求（一）、get （二）、带参数的get （三）、post 后续：数据解析一，网页开发者工具的使用我们可以用 requests 库来从一个url或者说一个网址来爬取资源，这里以百度主页和windows初始浏览器...
Python爬虫篇：爬虫笔记合集
2022-04-20 17:30

五包辣条！的博客学习爬虫你完全可以理解为找辣条君借钱（借100万），首先如果想找辣条借钱那首先需要知道我的居住地址，然后想办法去到辣条的所在的（可以走路可以坐车），然后辣条身上的东西比较多，有100万，打火机，烟，手机衣服...
上手就能用的Python爬虫，不香吗？
2022-03-11 20:08

XiangWentao666的博客上手就能用的Python爬虫，不香吗？前言正文开始！封装请求方法构造headers通过代码访问与浏览器访问的区别？headers的常用构造方法如何找headers的参数构造网址前言【本人同样为学生，总结不一定对，这只是个人在...
python爬虫入门之http协议和 Chrome 浏览器抓包工具
2021-02-13 09:22

sereasuesue的博客 1.当用户在浏览器的地址栏中输入一个URL并按回车键之后，浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为“Get"和“Post"两种方法。 ⒉当我们在浏览器输入URLhttps://www.baidu.com/的时候，浏览器发送一个...
Python 网络爬虫与数据采集（一）
2022-01-30 21:28

秃顶的博客 Python 网络爬虫与数据采集第1章序章网络爬虫基础1 爬虫基本概述1.1 爬虫是什么1.2 爬虫可以做什么1.3 爬虫的分类1.4 爬虫的基本流程1.4.1 浏览网页的流程1.4.2 爬虫的基本流程1.5 爬虫与反爬虫1.5.1 爬虫的攻与防...
python爬虫
2021-10-14 20:43

VersionVersion的博客爬虫网页采集器 # coding:utf-8 #UA：User-Agent (请求载体的身份标识) # #UA检测：门户网站的服务i去会检测请求载体身份表示，如果检测到请求载体的身份标识为浏览器 # 说明为正常请求。但是检测身份标识不是...
Python网络爬虫基本库
2023-08-21 20:54

对许的博客网络爬虫（Web Crawler）是一种自动化程序，用于从互联网上采集信息。它通过自动访问网页并提取所需的数据，实现对大量网页的快速检索和数据抓取网络爬虫通常使用HTTP协议来访问网页，并通过解析HTML、XML等网页内容...
Python爬虫-实现自动获取随机请求头User-Agent
2024-08-24 18:20

写python的鑫哥的博客 User-Agent 是一个特殊的 HTTP 请求头字段，由客户端（在这种情况下，主要是爬虫或浏览器）发送到服务器，以告诉服务器关于客户端（如浏览器类型、版本、操作系统、渲染引擎等）的信息。换言之，拥有User-Agent是...
Python基础知识进阶之数据爬虫
2023-06-19 17:14

漫步桔田的博客 Python基础知识进阶之数据爬虫
【Python爬虫系列】_005.浏览器开发者工具(详解)
2024-09-01 09:00

失心疯_2023的博客不一定准确（避坑）Console（控制台）这个除了查看错误信息、打印调试信息(console.log())、写一些测试脚本以外，还可以当作Javascript API查看用例如我想查看console都有哪些方法和属性，我可以直接在Console中输入...
【Python爬虫实战入门】：笔趣阁小说爬取，一篇教你爬虫入门
2024-07-16 18:59

爱喝兽奶的荒天帝的博客 requests简介requests模块官方...在请求中添加自定义标头（headers）、URL 参数、请求体等；自动处理 cookies；返回响应内容，并对其进行解码；处理重定向和跳转等操作；检查响应状态码以及请求所消耗的时间等信息。
【Python爬虫与数据分析】爬虫网络请求
2023-04-12 02:06

AllinTome的博客网络传输流程、HTTP协议、URL、长短连接，爬虫基础
【基础】【Python网络爬虫】【2.请求与响应】常用请求报头和常用响应方法
2023-12-31 13:08

My.ICBM的博客爬虫基础请求与相应 HTTP/HTTPS 协议 HTTP/HTTPS的优缺点 HTTP 的缺点 HTTPS的优点请求与响应概述请求请求目标（url）请求体（response）常用的请求报头查看请求体（requests 模块）响应 HTTP响应体响应行 ...
【Python爬虫】看电影还在用VIP？一个python代码让你实现电影自由！附源码
2024-10-17 16:49

进击的六角龙的博客由于篇幅限制，无法展示完整代码，我直接将代码打包上传，安全无毒，100%免费，可在下方获取！由于篇幅限制，无法展示完整代码，我直接将代码打包上传，安全无毒，100%免费，可在下方获取！对于视频地址发送请求 -> ...
Python爬虫：UA伪装
2023-07-18 17:48

SeverinZ的博客若不是，则表示该请求为不正常的请求（即爬虫，请求载体要么是基于浏览器要么是基于爬虫），服务器可能会拒绝该次请求。正因为服务器可能会拒绝请求，所以在第2步发起请求时，将请求头信息伪装为 header，再进行 get...
【Python 网络爬虫】使用 urllib 爬取网页源码、图片和视频
2023-12-21 08:30

有请小发菜的博客本文主要介绍了使用urllib结合基础知识爬取网页源代码，图片和视频。
python爬虫必备的基本知识
2024-03-11 19:55

奇形幻隐的博客网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做参考：...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月2日

在有标头的情况下，服务器是怎么区分浏览器和爬虫的？

1条回答 默认 最新

问题事件

1条回答默认最新