leiyuhhhhhh 2021-04-29 19:48 采纳率: 0%
浏览 82
已结题

切分语料脚本报错、请问代码要如何修改呢?

 

  • 写回答

7条回答 默认 最新

  • 关注

     

    你用这个试试。如果文件内容不对会提示出来,

    如果中文是乱码,把 encoding='utf-8' 改成 encoding='gbk' 试试

     

    import sys
    def cut2(fpath, new_data_dir, nsrc='zh', ntgt='en'):
        fp = open(fpath, 'r', encoding='utf-8')
        src_fp = open(new_data_dir+'raw.'+nsrc, 'w', encoding='utf-8')
        tgt_fp = open(new_data_dir+'raw.'+ntgt, 'w', encoding='utf-8')
        for line in fp.readlines():
            li = line.replace('\n', '').split('\t')
            if len(li)!=2:
                print("出错的行:",line)
                continue
            tgt_line = li[0]
            src_line = li[1]
            src_fp.write(src_line + '\n')
            tgt_fp.write(tgt_line + '\n')
        src_fp.close()
        tgt_fp.close()
    
    评论

报告相同问题?

悬赏问题

  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 对于相关问题的求解与代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料