cc9542 2021-12-11 00:43 采纳率: 96.7%
浏览 52
已结题

Python 文本处理 从网页上面复制粘贴的txt文件,怎么去除\u3000和\n

img

如图上显示的,
我按照这个网站(https://zhuanlan.zhihu.com/p/348461462) 的方法试了一下,还是这样子,是不是漏掉了那一步没做?

  • 写回答

3条回答 默认 最新

  • 关注
    你 s = str(f.readlines()) 是对列表进行字符串格式化,\u3000成了6个字符的字符串,不是一个空格了。
     
    在正则中 \ 就要写两个, 改成 \\
    re.sub(r'\\u3000','',s)
    
    或者
    s = str(f.readlines())
    改成
    s = f.read()
    就可以用re.sub(r'\u3000','',s)了
    

    如有帮助,望采纳!谢谢!

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 12月19日
  • 已采纳回答 12月11日
  • 创建了问题 12月11日

悬赏问题

  • ¥15 微信小程序协议怎么写
  • ¥15 c语言怎么用printf(“\b \b”)与getch()实现黑框里写入与删除?
  • ¥20 怎么用dlib库的算法识别小麦病虫害
  • ¥15 华为ensp模拟器中S5700交换机在配置过程中老是反复重启
  • ¥15 java写代码遇到问题,求帮助
  • ¥15 uniapp uview http 如何实现统一的请求异常信息提示?
  • ¥15 有了解d3和topogram.js库的吗?有偿请教
  • ¥100 任意维数的K均值聚类
  • ¥15 stamps做sbas-insar,时序沉降图怎么画
  • ¥15 买了个传感器,根据商家发的代码和步骤使用但是代码报错了不会改,有没有人可以看看