关于b站视频排行榜各视频数据的正则表达式

想做个b站爬虫，在社区老哥的帮助下解决了视频链接获取的问题，但想再用正则表达式获取标题的时候，得到的却是作者空间的链接。

这个爬虫基本思路是利用bs4获取页面的html代码，然后正则表达式提取信息。

这个是b站视频的html代码

<li data-id="421946246" data-rank="1" class="rank-item"><div class="num">1</div> <div class="content"><div class="img"><a href="//www.bilibili.com/video/BV1N3411b7Bo" target="_blank"><img class="lazy-image cover" data-src="//i0.hdslb.com/bfs/archive/4b49d94599d2aff64e76e5a8e1f7bb38ff195b61.jpg@228w_140h_1c.webp" src="//i0.hdslb.com/bfs/archive/4b49d94599d2aff64e76e5a8e1f7bb38ff195b61.jpg@228w_140h_1c.webp" lazy="loaded"></a> <div class="w-later van-watchlater"><span class="wl-tips" style="display:none;"></span></div></div> <div class="info"><a href="//www.bilibili.com/video/BV1N3411b7Bo" target="_blank" class="title">离大谱！随机帮别人实现梦想，竟然跑断了腿(物理)！</a> <!----> <div class="detail"><span class="data-box"><i class="b-icon play"></i>
              566.4万
            </span> <span class="data-box"><i class="b-icon view"></i>
              8.3万
            </span> <a target="_blank" href="//space.bilibili.com/546195"><span class="data-box up-name"><i class="b-icon author"></i>
                老番茄
              </span></a></div> <div class="pts"><div>9317813</div>综合得分
          </div></div> <div class="other-panel"><div class="other"><a target="_blank" href="//www.bilibili.com/video/BV1Bi4y1o7uj" class="other-link"><span class="title">好兄弟是什么，能吃吗？</span> <span>综合评分</span> <strong>2733969</strong></a></div> <a class="more-data" style="display:none;">
    显示UP主全部上榜视频
    <i></i></a></div></div></li>

这是我的python代码

import sys
import re
import urllib.request
import xlwt
from bs4 import BeautifulSoup

#正则表达式定义筛选规则
findLink=re.compile(r'<a href="//(.*?)" target="_blank">.*?</a>',re.S)#视频链接

#获取对应url网页的数据
def get_url(url):
    head = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36 Edg/96.0.1054.34"}#模拟计算机
    request = urllib.request.Request(url,headers=head)#以headers身份访问url网页
    html=''
    try:
        reponse = urllib.request.urlopen(request)
        html = reponse.read().decode('utf-8')
    except urllib.error.URLError as e:
        if hasattr(e,'code'):
            print(e.code)
        if hasattr(e,'reason'):
            print(e.reason)
    return html

#调用get_url函数获取指定网页数据，以html形式存储
def get_data(baseurl):
    data_list=[]
    html=get_url(baseurl)#获取get_url爬到的数据
    soup=BeautifulSoup(html,'html.parser')#定义使用html解读器解读数据的变量soup
    for item in soup.find_all('div',class_="content"):
        data=[]#存储单个视频全部信息
        
        item=str(item)#字符串化
        
        link=re.findall(findLink,item)[0]#视频链接
        data.append(link)
        
        authorlink=re.findall(findLink,item)[1]#作者链接（原本想获取标题）
        data.append(authorlink)
        
        data_list.append(data)#保存数据
    print(data_list)
    return data_list

get_data('https://www.bilibili.com/v/popular/rank/all')

以及问一下，排行榜里的其他信息有办法用正则表达式写出来吗？鄙人没学过html，纯粹是依葫芦画瓢的。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

Syb呀呀 2021-11-30 12:00

关注

可以直接用正则，不需要去解析
正则代码如下

import re
import requests
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}

url='https://www.bilibili.com/v/popular/rank/all'
res=requests.get(url,headers=headers)
# print(res.text)

title=re.findall('class="title">(.*?)</a> <!----> <div class="detail"',res.text)
href=re.findall('<div class="info"><a href="//(.*?)" target="_blank"',res.text)
all_sorce=re.findall('</span></a></div> <div class="pts"><div>(.*?)</div>',res.text)

for i in range(len(title)):
     print('标题为:',title[i])
     print('链接为:',href[i])
     print('综合得分为:',all_sorce[i])
     print('----------分割线----------')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

Python 正则表达式详解（建议收藏！）
2021-10-01 20:05

Ly4j的博客 python中re模块提供了正则表达式的功能，常用的有四个方法(match、search、findall)都可以用于匹配字符串match匹配字符串match方法尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就...
Python正则表达式基础
2022-04-02 16:46

Python正则表达式是Python编程语言中的一个强大工具，用于处理和分析文本字符串。它允许开发者通过模式匹配来查找、替换或提取数据，广泛应用于数据清洗、文本挖掘、日志分析等领域。在Python中，正则表达式主要通过...
Python正则表达式详解[源码]
2025-11-12 16:29

Python中的正则表达式是一种强大而灵活的文本匹配工具，它允许用户对字符串进行复杂的模式匹配。正则表达式的使用可以帮助开发者完成多种文本处理任务，例如验证输入数据的格式、搜索和替换文本中的特定模式，以及...
Python：正则表达式
2025-03-11 09:09

愚戏师的博客 正则表达式在python中的基础和应用
python正则表达式及使用正则表达式的例子
2020-10-18 19:10

在Python中，正则表达式是一套用于字符串匹配的模式，广泛应用于文本处理和数据提取。本篇文章将详细介绍Python中的正则表达式及其语法，并通过具体的例子来说明正则表达式的应用。 ### 正则表达式语法规则 1. **...
Python： 正则表达式
2025-07-06 15:47

慕婉0307的博客 正则表达式(Regular Expression)是一种用于匹配字符串中字符组合的模式，可以用于搜索、替换和验证文本数据。Python的正则表达式功能强大而灵活，re模块提供了丰富的API来处理各种文本匹配需求。掌握正则表达式可以...
第11.25节 Python正则表达式编译re.compile及正则对象使用.rar
2021-09-16 20:09

在Python编程语言中，正则表达式是一种强大的文本处理工具，用于匹配、查找、替换等操作。本节将深入探讨`re.compile()`函数及其在创建正则表达式对象中的应用。`re.compile()`是Python标准库`re`模块中的一员，它...
Python基础入门知识之正则表达式学习 正则表达式30分钟入门教程共21页.pdf
2023-06-04 15:12

正则表达式是编程语言中用于模式匹配的强大工具，尤其在数据处理和文本搜索替换时极为有用。Python作为一门广泛使用的编程语言，内置了强大的正则表达式支持。本教程旨在帮助初学者在30分钟内对Python中的正则表达式...
python 用正则表达式筛选文本信息的实例
2020-10-18 11:16

### Python 使用正则表达式筛选文本信息的知识点详解 #### 一、正则表达式的概念与应用 正则表达式是一种强大的文本处理工具，能够帮助我们完成特定模式字符串的匹配、替换以及提取等功能。在Python中，通过`re`...
正则表达式（python）
2025-05-03 02:11

张槊哲的博客这段Python代码主要利用re（正则表达式）模块，通过re.search函数在给定字符串中查找符合特定模式的内容，并提取其中分组匹配到的子字符串。这段Python代码使用re模块（正则表达式模块），通过re.search函数在给定...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月30日

关于b站视频排行榜各视频数据的正则表达式

2条回答 默认 最新

问题事件

2条回答默认最新