Eternity.xie 2021-09-01 14:12 采纳率: 100%
浏览 50
已结题

遇到一个问题,希望各位能指点一下。关于文本分类数据处理的。

这个是我的代码

        df=pd.read_csv('data.csv')
        prepare_data=df[['words']]
        all_word=[]
        for i in prepare_data['words']:
            all_word.extend(i)
        word_dict = pd.DataFrame(pd.Series(all_word).value_counts())
        word_dict['id_1'] = list(range(1, len(word_dict) + 1))
        prepare_data['w2v'] = prepare_data['words'].apply(lambda x: list(word_dict['id_1'][x]))

这个是data.csv

img

这是报的错误

img

img

img

请问我该如何修改代码呢?
ps(应该是第八行出现的问题,前面几行都可以通)

  • 写回答

1条回答 默认 最新

  • CSDN专家-HGJ 2021-09-01 14:28
    关注

    list(word_dict['id_1'][x]这里的x是字符,在数组中找不到这样键名,也不是索引,所以报错。
    补充:
    根据提供的数据及代码,主要出在prepare_data=df[['words']],取出的一个一列数据框,将prepared_data改写一下即可:

    df=pd.read_csv('t1.csv')
    prepared_data=df[['title','id']]
    prepared_data['words'] = prepared_data['title'].apply(
        lambda x: re.findall('[\x80-\xff]{3}|[\w\W]', x))
    #删去prepare_data=df[['words']]
    #后跟其他代码
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
    1人已打赏

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 9月1日
  • 已采纳回答 9月1日
  • 修改了问题 9月1日
  • 创建了问题 9月1日

悬赏问题

  • ¥15 stm32代码移植没反应
  • ¥15 matlab基于pde算法图像修复,为什么只能对示例图像有效
  • ¥100 连续两帧图像高速减法
  • ¥15 组策略中的计算机配置策略无法下发
  • ¥15 如何绘制动力学系统的相图
  • ¥15 对接wps接口实现获取元数据
  • ¥20 给自己本科IT专业毕业的妹m找个实习工作
  • ¥15 用友U8:向一个无法连接的网络尝试了一个套接字操作,如何解决?
  • ¥30 我的代码按理说完成了模型的搭建、训练、验证测试等工作(标签-网络|关键词-变化检测)
  • ¥50 mac mini外接显示器 画质字体模糊