某站现在更新的URL结构，现在要怎么爬-python

不太清楚怎么搞，以前的格式不都是https://www.bilibili.com/video/BV1zN4y1v7Vv?p={i}&vd_source=39337c1f138c59082f588c8cf19d1eb8，现在变成这种加密的，要怎么搞？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
GISer Liu 2024-04-04 17:51
关注
该回答引用自GPT-3.5,由博主GISer Liu编写：

针对您提出的问题，首先需要明确目前的情况是要爬取的网站更新了URL结构，导致无法像以前那样直接使用普通的URL进行爬取。针对这种情况，您可以考虑以下解决思路和方案：

解决思路：

分析新的URL结构 ：首先需要仔细分析新的URL结构，了解其中的规律和加密方式。
模拟加密过程 ：根据分析的加密规律，编写程序模拟加密过程，生成正确的URL。
使用网络抓包工具 ：利用网络抓包工具（如Fiddler、Wireshark等），分析网页加载过程中的请求，获取新URL的生成规律。
尝试直接访问 ：有时候新的URL结构可能只是前端展示的加密，实际访问时可能仍然可以直接使用旧的URL结构。
解决方案：
根据以上思路，您可以采取以下步骤：
分析新的URL结构 ：使用浏览器开发者工具查看页面元素，寻找新的URL结构。
模拟加密过程 ：根据分析的结果，编写Python程序模拟加密过程，生成正确的URL。
使用网络抓包工具 ：使用网络抓包工具分析网页加载过程，获取新URL的生成规律。
尝试直接访问 ：尝试直接使用旧的URL结构访问页面，查看是否可以正常访问。
示例代码：
假设新的URL结构加密方式为Base64，可以使用以下Python代码生成正确的URL：
pythonCopy code
import base64 def generate_new_url(video_id): encrypted_id = base64.b64encode(video_id.encode()).decode() new_url = f"https://www.example.com/video/{encrypted_id}" return new_url video_id = "BV1zN4y1v7Vv" new_url = generate_new_url(video_id) print(new_url)

注意事项：

网络数据抓取合法性 ：在进行网络数据抓取时，需遵守网站的使用规定，避免违反法律法规。
反爬虫策略 ：有些网站可能设置了反爬虫策略，需要注意避免被封IP或限制访问。
以上是针对您提出的问题的解决思路和方案，希望能帮助到您解决爬取网站更新URL结构的问题。

如果该回答解决了您的问题，请采纳！如果没有，请私信联系或评论您的疑惑
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

opencv-python>=4.1.2 not found 报错处理 opencv python 图像处理
2022-11-06 21:48

回答 7 已采纳你确定你运行的环境是这个（图里的红框）吗？
python PTA jmu-python-找子串 python
2022-05-15 20:40

回答 1 已采纳 str1=input() s1=int(input())-1 s2=int(input()) if s2-s1>len(str1): print("没子串！") else: p
JMU-Python-分段函数 (10 分) python
2021-11-30 10:44

回答 1 已采纳 import math x=float(input()) if x>3.5: y=math.cos(x)+math.exp(x) elif 0<x<=3.5: y=m
Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，...在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。
如何解决cannot identify image file(语言-python) python 有问必答
2022-01-12 18:11

回答 2 已采纳第一段代码中这for i in dic有问题，这只是遍历键名，使用dic.values()才行。写成这样： import pyautogui as p import time dic = {"首都
Python编程语言 list python 有问必答
2021-12-29 11:00

回答 2 已采纳 import random n=int(input()) list=[] for i in range(n): list.append(random.randint(1,200)) print
关于could not convert string to float 的问题(语言-python) python
2021-12-19 15:14

回答 5 已采纳 def main(): x,y=loadIris() liner=linear_model.LinearRegression() liner.fit(x,y) sh
python3网络爬虫--最新爬取B站视频弹幕 so文件（附源码）
2023-09-09 10:26

懷淰メ的博客这里把A C站称为小破站小破站在2023年将弹幕接口的返回值从.xml改成了.so文件返回值示例：很明显部分数据是被加密了。本次通过调研protobuf协议通过搭建环境，使用Python撰写代码实现了对B战弹幕的解析，对于大多数...
python编程解决问题 python 有问必答
2021-06-09 20:56

回答 2 已采纳 import random a=[] sum=0 max=0 min=1000 for i in range(20): a.append(random.randint(1,999))
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
7-4 jmu-python-求三角形面积及周长 (10 分) python
2021-11-29 20:13

回答 1 已采纳 import math def calculateAreaPerimeter(a, b, c): perimeter = a + b + c s = perimeter / 2
Python课程设计《网络爬虫-中国大学排名课程设计》
2022-05-08 09:13

御剑飞行的程序员的博客网络爬虫应用智能自构造技术，随着不同主题的网站，可以自动分析构造URL去重。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。为了适应不同需求...
yolov5增加数据集需要整个重新训练吗？(语言-python) python pytorch 深度学习
2022-02-17 14:25

回答 1 已采纳不需要，之前模型训练好了打包出来，有个参数文件，下次直接把这个参数model.load_weights（）把之前的参数load进去，然后只训练新的数据就行
Python爬虫详解：原理、常用库与实战案例
2024-04-01 13:30

雪碧有白泡泡的博客通过本文的讲解，相信读者已经对Python爬虫有了较为全面的认识。爬虫技能在数据分析、自然语言处理等领域具有广泛的应用，希望读者能够动手实践，不断提高自己的技能水平。同时，请注意合法合规地进行爬虫，遵守相关...
Python数据结构-列表
2021-12-26 08:38

涤生大数据的博客正则小练习：匹配出以下字符串所有url， import re def find_url(sentence, show_urls=None, delete_urls=None): r = re.compile( r'(?i)\b((?:[a-z][\w-]+:(?:/{1,3}|[a-z0-9%])|www\d{0,3}[.]|[a-z0-9.\-]+[....
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月4日

悬赏问题

¥15 bat批处理，关于数据复制问题
¥50 同步两个不同结果的array中某些属性
¥15 悬赏15远程操控解决问题
¥15 CST复制的模型无法单独修改参数？
¥15 前端页面想做个定时任务，但是使用requestAnimationFrame，setinterval和settimeout都不行
¥15 根据以下文字信息，做EA模型图
¥15 删除虚拟显示器驱动删除所有 Xorg 配置文件删除显示器缓存文件重启系统可是依旧无法退出虚拟显示器
¥15 vscode程序一直报同样的错，如何解决?
¥15 关于使用unity中遇到的问题
¥15 开放世界如何写线性关卡的用例(类似原神）

某站现在更新的URL结构，现在要怎么爬-python

2条回答 默认 最新

解决思路：

解决方案：

示例代码：

注意事项：

问题事件

悬赏问题

2条回答默认最新