上信考python二三级文本处理

题目

待处理的文本文件
[](通过百度网盘分享的文件：people.html
链接：https://pan.baidu.com/s/1k2t5LbQB6SEMCKW74EomTA
提取码：hd9A
复制这段内容打开「百度网盘APP 即可获取」)

感觉好难处理。主要就是这一部分代码如何提取出来，在用正则表达式匹配这段里面的连接
该段内容标签带数字可能是一个切入点，其他部分的标签内容不带数字

# <span class="defaultmenu">旗下网站
#<ul>
# li><a href="http://paper.people.com.cn/xwzx/paperindex.htm            
#     " target="_blank">40091新闻战线</a></li>
#</ul>
# </span>

# r'<{}>(.*?)</{}>'  匹配标签内容

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

7*24 工作者 2023-10-13 14:36

关注


html = open('people.html','rb').read().decode('utf-8')

## 利用正则表达式提起数据，需要提取2次才能获取结果

import re
regex1 = re.compile('<span class="defaultmenu">旗下网站([\S\s\w]+?)</span>')
data1 = re.findall( regex1,html )[0]

regex2 = re.compile('<li><a href="(.*?)" target="_blank">(.*?)</a></li>')
data2 = re.findall( regex2,data1 )
for item in data2:
    url,name = item
    print(name,url)

##利用 lxml 模块提取数据
from lxml import etree
html = etree.HTML(html)

lis = html.xpath('//span[@class="defaultmenu"][3]/ul/li')   #[3] 表示 span[@class="defaultmenu"] 第3个
for li in lis:
    name = li.xpath('./a/text()')[0].strip()
    url = li.xpath('./a/@href')[0].strip()
    print(name,url)

报告相同问题？

关注问题

python文本处理 python
2021-07-16 09:24

回答 2 已采纳字符串类型就用+号拼接，不是字符串就转下字符串每次追加写入 write(str(a)+str(b))中间如果需要隔开就自己加隔断符号
Python编程语言中:f的含义 python 开发语言
2021-11-05 17:43

回答 3 已采纳 f-string采用 {content:format} 设置字符串格式，其中 content 是替换并填入字符串的内容，可以是变量、表达式或函数等，format 是格式描述符.具体函数可以参考看
Python编程语言 list python 有问必答
2021-12-29 11:00

回答 2 已采纳 import random n=int(input()) list=[] for i in range(n): list.append(random.randint(1,200)) print
Python二级官方教材
2022-04-11 21:25

Python是一种广泛应用于各种领域的高级编程语言，尤其在数据科学、机器学习、Web开发等领域有着显著的地位。Python二级是针对计算机等级考试的一种，旨在测试考生对Python编程基础的掌握程度。本教材是为帮助新手...
python 文本处理中空字符串却有长度 nlp python 数据分析
2022-10-29 00:38

回答 2 已采纳自问自答一下吧，找了好久发现其实这个看似空的字符串其实是emoji符号里的 Variation Selector，中文译为「变体选择符」使用 unicode_escape 查看其unicode内存
关于青少年Python一级 python 有问必答
2021-12-27 14:32

回答 2 已采纳 1、考试成绩在90-100分合格证书上注明优秀。 2、考试成绩在80-89分合格证书上注明良好。 3、考试成绩在60-79分合格证书上注明合格。有证书。
Python文本分析需要掌握什么？ python 深度学习自然语言处理
2022-08-28 10:59

回答 2 已采纳关于该问题，我找了一篇非常好的博客，你可以看看是否有帮助，链接：Python实例分析——文本词频统计
使用Python进行医疗临床文本处理
2020-08-06 14:02

1. Python编程语言 2. NLP技术，如语言模型、Word / Character Embeddings、Contextualized Word Embeddings等 3. 深度学习技术，如_convolutional Neural Networks、Sequence Modeling、Transformers等 4. 相关的库...
自然语言处理与python相关知识错误 python 自然语言处理
2018-07-19 02:23

回答 4 已采纳 u只是说明它是UTF编码的，这个只在python2中有，python3中已经没有这个u了
请问我这个python设计(文本分析)该用到哪些库呢 list python 自然语言处理
2022-04-30 17:37

回答 3 已采纳一般就用到匹配，计数相关的库，再加上文件读取相关的库。其实，很多库都是你使用过程中才发现要用的，详细可私我
python 大量文本数据预处理（NLP），跑的很慢，是否可以用上GPU加速 linux python 有问必答自然语言处理
2022-02-24 11:25

回答 3 已采纳可以用啊，判断GPU是否可用，否则使用cpu device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
试卷全国青少年软件编程(Python)等级考试试卷(二级)2.pdf
2023-04-12 20:38

本试卷涵盖了 Python 编程语言的基础知识点，包括变量、数据类型、运算符、控制结构、函数、字符串处理、文件输入/输出等方面。 1. 变量和数据类型： * Python 中变量不需要声明，变量的赋值操作即是变量声明和...
Python英语文本分析怎么匹配不同时态的单词 list python 自然语言处理
2022-05-02 13:43

回答 1 已采纳可以安装第三方分词模块，比如nltk可以实现规则动词的时态原型转换。下面是用法，打印出going的原型go from nltk.stem import SnowballStemmer trans =
Python二级编程操作题.zip
2019-11-15 17:11

Python作为一门易学且功能强大的编程语言，被广泛应用于数据分析、机器学习、网络编程等多个领域。Python二级考试的编程操作题通常涵盖以下知识点： 1. **基本语法**：包括变量定义、数据类型（如整型、浮点型、...
python语言学习-python编程100练，在代码中实际进行练习
2024-04-30 13:29

Python 是一种高级的、解释型的编程语言，它以其简洁明了的语法和强大的标准库而闻名。Python 由 Guido van Rossum 创建，并在 1991 年首次发布。以下是 Python 语言的一些主要特点： 1. **易于学习和使用**：Python...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月13日

悬赏问题

¥15 hive on spark
¥15 星穹铁道中的ai自动战斗逻辑
¥15 SimpleHook 一下android fake模块的VIP日期
¥15 如何在VBA中利用word的错词提示功能识别word文本中的错别字并标注
¥15 jupyter notebook无法识别的空格，如何解决？(语言-python)
¥15 自动回复评论的小插件
¥20 用c++完成两道大题，要求提供.h和.cpp，以及用来测试的main.cpp
¥15 2024电赛H题指导
¥15 第三方如何控制E8a进行烧录
¥15 关于lua调用DLL的c/c++动态库（相关搜索：数据库）

上信考python二三级文本处理

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新