题目
待处理的文本文件
[](通过百度网盘分享的文件:people.html
链接:https://pan.baidu.com/s/1k2t5LbQB6SEMCKW74EomTA
提取码:hd9A
复制这段内容打开「百度网盘APP 即可获取」)
感觉好难处理。主要就是这一部分代码如何提取出来,在用正则表达式匹配这段里面的连接
该段内容标签带数字可能是一个切入点,其他部分的标签内容不带数字
# <span class="defaultmenu">旗下网站
#<ul>
# li><a href="http://paper.people.com.cn/xwzx/paperindex.htm
# " target="_blank">40091新闻战线</a></li>
#</ul>
# </span>
# r'<{}>(.*?)</{}>' 匹配标签内容