shiter 2016-07-24 08:19 采纳率: 71.4%
浏览 3597
已采纳

python从txt中提取每一行的中文

第一单元
application software应用软件
basic application基本应用软件
communication device通信设备
compact disc (CD)光盘
computer competency计算机能力

请问怎么提取

 if __name__ == '__main__':

    info = open("know.txt")
    print "中文"
    #a = info.readlines()
    #print a
    for line in info:
        line = line.decode('GB2312').encode('utf-8')
        print line
        letter_str = re.findall(r'([a-zA-Z]+)',line,re.MULTILINE)
        hanzi_str = re.findall(r'([^a-zA-Z]+)',line,re.MULTILINE)
        print hanzi_str
        str = [letter_str,hanzi_str]
        knowledge.append(str)

    write_excel(knowledge)
  • 写回答

2条回答 默认 最新

  • shiter 领域专家: 人工智能技术领域 2016-07-24 08:22
    关注

    txt编码是gb2312,怎么处理呢?

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 已采纳回答 9月16日