小清高class 2021-08-10 15:49 采纳率: 100%
浏览 338
已结题

爬取后得到的文本内容空行太多,如何消去?

下面是我爬取到的文本内容

img

个人感觉空行太多,想要从代码上解决

下面是我的代码:(希望可以帮助我)

img

  • 写回答

3条回答 默认 最新

  • 关注

    删除内容中的空行
    如果是纯文本的:

    import re
    s = '''aaaaaaaaa
    
    bbbbbbbbbbbbb
    
    
    
    ccccccccccc
    
    dddddddddddd'''
    
    s = re.sub(r'\n\s*\n','\n',s)
    print(s)
    

    如果是html的:

    import re
    s = '''aaaaaaaaa<br />
    <br />
    bbbbbbbbbbbbb<br />
    <br> <br>
    <br />
    ccccccccccc<br>
    <br />
    dddddddddddd'''
    
    s = re.sub(r'<br\b[^>]*>(<br\b[^>]*>|\s)*<br\b[^>]*>','<br />',s)
    print(s)
    

    如有帮助,望采纳!谢谢! 点击我这个回答右上方的【采纳】按钮

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 8月21日
  • 已采纳回答 8月13日
  • 创建了问题 8月10日

悬赏问题

  • ¥15 微信小程序协议怎么写
  • ¥15 c语言怎么用printf(“\b \b”)与getch()实现黑框里写入与删除?
  • ¥20 怎么用dlib库的算法识别小麦病虫害
  • ¥15 华为ensp模拟器中S5700交换机在配置过程中老是反复重启
  • ¥15 java写代码遇到问题,求帮助
  • ¥15 uniapp uview http 如何实现统一的请求异常信息提示?
  • ¥15 有了解d3和topogram.js库的吗?有偿请教
  • ¥100 任意维数的K均值聚类
  • ¥15 stamps做sbas-insar,时序沉降图怎么画
  • ¥15 买了个传感器,根据商家发的代码和步骤使用但是代码报错了不会改,有没有人可以看看