正则表达式或者bs4 匹配得到代码中的汉字部分，不是得到一个，在我程序中需要得到很多个，请大佬帮忙解决一下，谢谢

<a class="topic-text" href="http://tieba.baidu.com/hottopic/browse/hottopic?topic_id=278032&amp;topic_name=%E6%97%A5%E6%9C%AC%E8%A7%84%E5%AE%9A%E5%9D%90%E8%BF%87%E5%B1%B1%E8%BD%A6%E7%A6%81%E6%AD%A2%E5%B0%96%E5%8F%AB" target="_blank">日本规定坐过山车禁止尖叫</a>

日本规定坐过山车禁止尖叫

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
关竹 2020-05-30 11:11
关注
a="""string""" pattern=r'[\u4e00-\u9fa5]+' print(re.findall(pattern,a))

这里\u4e00-\u9fa5是汉字unicode范围

这样有一个问题，举例

<a>日本规定hhhh坐过山车禁止尖叫</a> 匹配返回结果["日本规定","坐过山车禁止尖叫"]

如果你要抓取的内容只在< a>< /a>中间，建议你的正则去匹配">< /a>"中间部分

pattern=r'>(.*)</a>' print(re.findall(pattern,a))

关于字符的unicode范围，你可以看下这篇

https://blog.csdn.net/gatieme/article/details/43235791
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python正则表达式开头和结尾摘抄_python正则表达式如何匹配任意文本之后以"结尾...
2021-03-06 15:01

刘嘉耿的博客事情源于我们英语课留了个作业要背单词什么的五百多个词懒得一个个去查了想写个爬虫自动搜索必应词典上的翻译然后我就可以直接看了感觉这个正则表达式的匹配有点难写(对于我来说...)本来想用BeautifulSoup......
两周从爬虫小白变大神，看完你就知道我不是标题党了【五万字教程，建议收藏】
2021-09-28 09:39

五包辣条！的博客大家好，我是辣条，今天给大家带来最硬核的爬虫教程。目录 Python爬虫第一天什么是爬虫爬虫与Web后端服务之间的关系 Python爬虫技术的相关库常见反爬虫的策略爬虫库urllib【重要】作业爬虫第二天 ...
爬虫实战：爬取豆瓣电影 Top-250 到 Excel 表格中
2020-07-28 14:44

_小辉同学_的博客其实本来我是想将数据爬取到excel之后再增加一些数据库操作，然后用flash建立一个网站将数据导入这个网站中…还想着下个模板优化一下网站界面实现数据可视化来着… 但！！！当我万分激动地上号我的pycharm，使用pip...
一个案例详细说明何为Python爬虫
2024-06-24 16:09

凯森森讲Python的博客书籍的好处就在于权威和体系健全，刚开始学习的时候你可以只看视频或者听某个人讲课，但等你学完之后，你觉得你掌握了，这时候建议还是得去看一下书籍，看权威技术书籍也是每个程序员必经之路。Python所有方向路线...
Python程序设计与科学计算精录&总结Episode.4 Python进阶：自动化办公应用（基于Michael导师Python课程与VS2019）
2020-05-20 22:37

笙歌散尽的博客我都低头疾走。宁静的夏，望着猎户天际划破，你许下丝缕的心愿，愿与我恒久。可是，哪里有长守，只不过是慰藉呓语几片。你悄悄地离开，捎去美丽的心愿，敲碎明镜似的梦。待时间的风，寻你脚踪。 ...
大佬总结的前200页Java面试题都在这里了
2018-10-11 11:16

weixin_34146410的博客一个”.java”源文件中是否可以包含多个类（不是内部类）？有什么限制简单说说你了解的类加载器。是否实现过类加载器解释一下什么叫AOP（面向切面编程）请简述 Servlet 的生命周期及其...
完成一个城市选择组件（阿里前端题目,内附知识点、思路）
2018-03-29 18:39

weixin_34295316的博客借用了两个已经久经考验...　首先说一下，我不是阿里的人，也没去阿里面试过，这是某微信群里的一个小伙伴给的，不是面试题不是面试题不是面试题，我现在的能力达不到阿里的要求。不过人没梦想还不如咸鱼，有能力的...
独立完成一个城市选择组件（阿里前端题目,内附知识点、思路）
2018-03-27 09:16

weixin_30955341的博客　首先说一下，我不是阿里的人，也没去阿里面试过，这是某微信群里的一个小伙伴给的，我现在的能力达不到阿里的要求。不过人没梦想还不如咸鱼，有能力的话还是想去尝试一下。本文如有不足，请勿嘲讽，指出不足即可，...
python写注册并登录程序
2024-07-07 05:52

ndwll的博客代码分析先把代码发放上来，然后我根据代码逐步解析 # -*- codeing = utf-8 -*- from bs4 import BeautifulSoup # 网页解析，获取数据 import re # 正则表达式，进行文字匹配` import urllib.request, urllib....
安卓版的java程序代码
2023-02-04 11:48

Esoftyr的博客 for(char c:array){ if(c==‘h’){ System.out.println(“字符a在字符串中”); } } } } 正确例题 public class Test { public static void main(String[] args) { String str = “abcde”; int ii = str.indexOf(...
没有解决我的问题, 去提问

正则表达式或者bs4 匹配 得到 代码中的汉字部分，不是得到一个，在我程序中需要得到很多个，请大佬帮忙解决一下，谢谢

1条回答 默认 最新

正则表达式或者bs4 匹配得到代码中的汉字部分，不是得到一个，在我程序中需要得到很多个，请大佬帮忙解决一下，谢谢

1条回答默认最新