shiter 2016-07-24 08:19 采纳率: 71.4%
浏览 3595
已采纳

python从txt中提取每一行的中文

第一单元
application software应用软件
basic application基本应用软件
communication device通信设备
compact disc (CD)光盘
computer competency计算机能力

请问怎么提取

 if __name__ == '__main__':

    info = open("know.txt")
    print "中文"
    #a = info.readlines()
    #print a
    for line in info:
        line = line.decode('GB2312').encode('utf-8')
        print line
        letter_str = re.findall(r'([a-zA-Z]+)',line,re.MULTILINE)
        hanzi_str = re.findall(r'([^a-zA-Z]+)',line,re.MULTILINE)
        print hanzi_str
        str = [letter_str,hanzi_str]
        knowledge.append(str)

    write_excel(knowledge)
  • 写回答

2条回答 默认 最新

  • shiter 人工智能领域优质创作者 2016-07-24 08:22
    关注

    txt编码是gb2312,怎么处理呢?

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 已采纳回答 9月16日

悬赏问题

  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 对于相关问题的求解与代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料
  • ¥15 使用R语言marginaleffects包进行边际效应图绘制