下面是我爬取到的文本内容
个人感觉空行太多,想要从代码上解决
下面是我的代码:(希望可以帮助我)
删除内容中的空行
如果是纯文本的:
import re
s = '''aaaaaaaaa
bbbbbbbbbbbbb
ccccccccccc
dddddddddddd'''
s = re.sub(r'\n\s*\n','\n',s)
print(s)
如果是html的:
import re
s = '''aaaaaaaaa<br />
<br />
bbbbbbbbbbbbb<br />
<br> <br>
<br />
ccccccccccc<br>
<br />
dddddddddddd'''
s = re.sub(r'<br\b[^>]*>(<br\b[^>]*>|\s)*<br\b[^>]*>','<br />',s)
print(s)
如有帮助,望采纳!谢谢! 点击我这个回答右上方的【采纳】按钮