from lxml import etree
text = '''
-
baidu https://ask.csdn.net/www.baidu.com
-
<a href="https://blog.csdn.net/qq_25343557">myblog</a> <li class="sp item-2" name="two"><a href="https://www.csdn.net/">csdn</a> <li class="sp item-3" name="four"> <a href="https://hao.360.cn/?a1004">hao123</a>
</div>
'''
html = etree.HTML(text)result = html.xpath('//li[2]/a/text()')#选择第二个li节点,获取a节点的文本
版权声明:本文为CSDN博主「柏拉图工作室-Python学科」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:Python爬虫原理与常用模块——数据提取与清洗策略_柏拉图工作室-Python学科-CSDN博客 1 正则表达式1.1概念世界上信息非常多,而我们关注的信息有限。假如我们希望只提取出关注的数据,此时可以通过一些表达式进行提取,正则表达式就是其中一种进行数据筛选的表达式。正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z之间的字母)和特殊字符(称为"元字符")。正则表达式通常被用来匹配、检索、替换和分割那些符合某个模式(规则)的文本Python 自1.5版本起增加了re模块,它提供Perl风格的正则表达式模式。re 模块使 Python 语言拥有全 https://blog.csdn.net/weixin_47654912/article/details/108730777第二行text应该输入什么?不明白。