在有标头的情况下，服务器是怎么区分浏览器和爬虫的？

程序源代码


import requests
import re

# 头部
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.40'}
url = 'https://815864.yichafen.com'


def ask(primary_url):
    # 爬
    got = requests.get(primary_url, headers=header)
    # 源代码
    text = got.text
    print(text)
    return text


def analysis(code):
    # 源代码
    source_code = code

    # 寻找超链接
    # 正则
    re_test_name = r'<a style="margin-left:10px;"\t\t\t\t\thref=".+" target="_blank">.{0,30}</a>'
    # 找
    results = re.findall(re_test_name, source_code)
    print(results)


def main():
    analysis(ask(url))


if __name__ == '__main__':
    main()

访问几次之后的结果，其中标红部分是每次都会改变的

但是在浏览器中不会被阻止

请问服务器是怎么区分浏览器和爬虫的？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-showbo 2021-11-02 20:41
关注
还有cookie，比如网站使用了session，会生成对应的cookie发送到客户端，如asp.net的ASP.NET_SessionId，php和jsp也有对应的cookie。

要保持是同一个请求，需要附带上cookie内容

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在有标头的情况下，服务器是怎么区分浏览器和爬虫的？ python 有问必答爬虫
2021-11-02 20:35

回答 1 已采纳还有cookie，比如网站使用了session，会生成对应的cookie发送到客户端，如asp.net的ASP.NET_SessionId，php和jsp也有对应的cookie。要保持是同一个请求，
Edge浏览器的请求头在哪里？ edge python 爬虫
2021-08-08 09:39

回答 3 已采纳
Python爬虫requests反还内容与网页内容不相同 python
2022-03-09 08:39

回答 4 已采纳看一下网页里内容是啥，无关内容就是被反爬了，因为这是ajax请求，你直接抓报请求，header头部可能会反爬，有时还要加cookie，referer，csrf等
Python爬虫系列（一）——手把手教你写Python爬虫
2021-10-23 15:47

纸照片的博客适合初学者快速上手入门，以爬取CSDN和百度图片为例。
Python爬虫动态页面获取问题 python 爬虫
2021-12-08 16:12

回答 1 已采纳爬错了，是这个https://wax.alcor.exchange/api/markets
爬虫基础访问页面失败无效标头 python
2022-07-17 23:03

回答 4 已采纳
我怎样才能解决“缺失跨域资源共享（CORS）标头”问题？ django html5 python
2022-04-21 11:33

回答 1 已采纳跨域问题的话，前端可以使用 Jsonp 解决，也可以使用Nginx反向代理，后端的话可以在Controller类加 @Crossorgin 注解，或者在SpringBoot中增加配置类，对外暴露接口
Python爬虫篇：爬虫笔记合集
2022-04-20 17:30

五包辣条！的博客学习爬虫你完全可以理解为找辣条君借钱（借100万），首先如果想找辣条借钱那首先需要知道我的居住地址，然后想办法去到辣条的所在的（可以走路可以坐车），然后辣条身上的东西比较多，有100万，打火机，烟，手机衣服...
为什么在symfony 3.4中呈现php模板是打印http标头？ php symfony
2018-08-13 08:18

回答 1 已采纳 Well, after asking I still researching about it and I finally found out why and thanks to this art
标头位置在服务器上不起作用，但适用于localhost php
2019-02-28 07:04

回答 5 已采纳 you can use echo "<script> window.location.href = 'index.php'; </script>";
请求标头显示是预配标头 ajax html5 javascript
2023-03-24 22:39

回答 1 已采纳 "预配标头"指的是请求发送到服务器时所带的请求头（Request Headers），通常包含一些需要被服务器端检查并根据结果进行处理的信息，如Cookie、Token等等。如果请求标头显示为“预配标
python爬虫入门之http协议和 Chrome 浏览器抓包工具
2021-02-13 09:22

sereasuesue的博客 1.当用户在浏览器的地址栏中输入一个URL并按回车键之后，浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为“Get"和“Post"两种方法。 ⒉当我们在浏览器输入URLhttps://www.baidu.com/的时候，浏览器发送一个...
Python 网络爬虫与数据采集（一）
2022-01-30 21:28

秃顶的博客 Python 网络爬虫与数据采集第1章序章网络爬虫基础1 爬虫基本概述1.1 爬虫是什么1.2 爬虫可以做什么1.3 爬虫的分类1.4 爬虫的基本流程1.4.1 浏览网页的流程1.4.2 爬虫的基本流程1.5 爬虫与反爬虫1.5.1 爬虫的攻与防...
上手就能用的Python爬虫，不香吗？
2022-03-11 20:08

XiangWentao666的博客上手就能用的Python爬虫，不香吗？前言正文开始！封装请求方法构造headers通过代码访问与浏览器访问的区别？headers的常用构造方法如何找headers的参数构造网址前言【本人同样为学生，总结不一定对，这只是个人在...
Python基础知识进阶之数据爬虫
2023-06-19 17:14

漫步桔田的博客 Python基础知识进阶之数据爬虫
全网最全python爬虫精进
2021-04-25 17:33

yk 坤帝的博客爬虫，从本质上来说，就是利用程序在网上拿到对我们有价值的数据。 2、明晰路径 2-1、浏览器工作原理（1）解析数据：当服务器把数据响应给浏览器之后，浏览器并不会直接把数据丢给我们。因为这些数据是用计算机的...
【Python爬虫与数据分析】爬虫网络请求
2023-04-12 02:06

AllinTome的博客网络传输流程、HTTP协议、URL、长短连接，爬虫基础
python浏览器开发者工具_Python爬虫开发者工具介绍
2020-11-30 02:54

weixin_39621975的博客前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。chrome 开发者工具当我们爬取不同的网站时，每个网站页面的实现方式各不相同，我们需要对每个网站都进行...
【Python 网络爬虫】使用 urllib 爬取网页源码、图片和视频
2023-12-21 08:30

有请小发菜的博客本文主要介绍了使用urllib结合基础知识爬取网页源代码，图片和视频。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月2日

悬赏问题

¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改

在有标头的情况下，服务器是怎么区分浏览器和爬虫的？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新