导入xlsx文件为DataFrame类型，转换为列表，分词后中括号和引号无法去除

我是跨境电商从业者，前两天学了点 Python ，百度后试着自己写了段代码，希望能实现以下功能：
将导入进 xlsx 的用户搜索词进行词频统计，用于标题拟定和关键词填写。
查询资料后，把这个要求拿出了自己的实现方法：

使用 pandas 库，从 test.xlsx 中导入关键词
使用 split() 方法，或者 nltk 库中的 word_tokenize 模块，来进行分词
使用 nltk 库中的 WordNetLemmatizer 模块，对分词后的结果进行词性还原
对词性还原后的结果，进行词频统计
把结果写进 results.xlsx 文件中
但是当工作开始后，我遇到以下问题：
pandas 库导入的数据是 DataFrame 类型，而 word_tokenize 模块只认 string
为了解决此问题，我转而使用 split() 方式。
可是使用 split() 方式后，一万多条关键词，只有前几十条被分词。
于是我转而试图将结果转换为 string ，再分词，我使用的是 str() 函数。
使用 str(）函数后，word_tokenize 模块还是不能用，变量管理器里一个结果都没有。
但是 split() 方式可以用了。
只是返回的结果中有中括号和引号。
我转而放下这个问题，把接下来几个问题解决了。
其中，写入 xlsx 文件被放弃，改成写进 test.csv 文件。
当我回头准备解决中括号和引号的问题时，我开始渐渐绝望，因为我试了最常用的 join 方法，仍然有中括号和引号。
其他的一些方法，要么我看不明白，要么就是用不了。
附上源码：


#!/usr/bin/python3
#coding=utf-8

import pandas as pd # 导入 pandas 模块，以读取 xlsx 文件
import collections # 导入 collection 模块，以实现词频统计
from nltk import word_tokenize, pos_tag # 分词
from nltk.corpus import wordnet # 导入 wordnet 模块，写入方法，将 tag 转换为 pos
from nltk.stem import WordNetLemmatizer # 导入词性还原模块，进行词性还原


def get_wordnet_pos(tag): # 定义一个方法，用来将 tag 转换为 pos
    if tag.startswith('J'):
        return wordnet.ADJ
    elif tag.startswith('V'):
        return wordnet.VERB
    elif tag.startswith('N'):
        return wordnet.NOUN
    elif tag.startswith('R'):
        return wordnet.ADV
    else:
        return None

keywords_data = pd.read_excel(r'C:\Users\cmoc\Downloads\test.xlsx', sheet_name='test') # 载入 test.xlsx 中的 test 表格
keywords_list = keywords_data.values.tolist() # 把读取的数据转换成列表
keywords_list_trans = []
for keyword_list in keywords_list:
#    keyword_list.replace("'", "")
    keywords_list_trans.append(keyword_list[0])

keywords = str.split(str(keywords_list_trans)) # 将product_data 转换为字符串，并进行分词
tagged_keywords = pos_tag(keywords) # 获取单词词性

wnl = WordNetLemmatizer()
keywords_lemmatized = []
for tag in tagged_keywords:
    keyword_pos = get_wordnet_pos(tag[1]) or wordnet.NOUN
    keywords_lemmatized.append(wnl.lemmatize(tag[0], pos=keyword_pos)) # 词形还原

results = collections.Counter(keywords_lemmatized).most_common() # 将得到的结果转换成列表，并进行排序
results_dict = dict(results) # 将排序后的结果列表转换成字典
results_df = pd.DataFrame.from_dict(results_dict, orient='index', columns=['Frequency'])

results_df.to_csv(r'C:\Users\cmoc\Downloads\test.csv', sep=',', header=True, index=True)

附上我的关键词：

/%ra2
链接是坚果云，未注册用户也可以下载。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-天际的海浪 2021-09-11 21:54
关注
转换为列表之后再用 " ".join()拼接成字符串不行吗?

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

导入xlsx文件为DataFrame类型，转换为列表，分词后中括号和引号无法去除 python 有问必答
2021-09-11 21:44

回答 2 已采纳转换为列表之后再用 " ".join()拼接成字符串不行吗?
Python如何将xlsx导入列表 python
2022-07-25 11:00

回答 3 已采纳先split(',')再用int()函数转换类型假如你原来的list名叫a那么b=[[int(i) for i in x.split(',')] for x in a]
为什么dataframe输出不了xlsx文件 python
2022-11-28 23:16

回答 1 已采纳提示没有安装openpyxl这个第三方库，安装之后再试一下
Python批量将文件夹中xls文件批量转换为xlsx
2019-03-21 16:35

利用Python将一个文件夹中的xls文件批量转换为xlsx文件
Python把xlsx文件转化为csv文件，csv文件结果与原xlsx文件结果不同的问题？ python 有问必答
2021-06-06 13:29

回答 3 已采纳试着用文本文档打开csv文件看一下。如果符合预期的话，应该是EXCEL自动更改了日期格式。
xlsx转换为csv时中文乱码 python
2021-06-29 14:57

回答 1 已采纳换成gbk试试
PLSQL可以导入xls文件，但无法选择xlsx文件。 sql 数据库有问必答
2022-01-09 15:04

回答 1 已采纳 odbc有32位和64位版本,请根据你的程序进行选择在odbc中添加xlsx的数据源,需要安装高版本的microsoft office(或者去找单独的office的odbc驱动包),如果你本机没安装的
python学习之路：pandas中的series和dataframe.xlsx
2020-05-15 17:27

python学习之路：pandas中的series和dataframe.xlsx
Python接口自动化测试，导入接口，上传file文件（.xlsx文件） python selenium 单元测试
2023-03-13 18:36

回答 1 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ根据您提供的代码，我看到您使用了requests库来发送POST请求，其中参数files用于上传文件。但是，在您的代码中，我没有看到将参数id添加到请求体中。您可以尝试使
python 使用DataFrame将三个文件merge在一起涉及到文件转换 python
2022-01-23 13:52

回答 1 已采纳 if os.path.splitext(file_name)[1].lower() in '.fas': 改成 if '.fas' in os.path.splitext(file_name)[1].
怎样把Python xlsx文件中，其中一列时间数据，原本每行间隔5min，以间隔20min为标准筛选数据 python
2022-08-04 17:12

回答 1 已采纳建议可以重新设置行索引，再使用行索引能被4整除筛选出数据。
python读取xlsx文件pandas_pandas dataframe 读取 xlsx 文件
2020-11-24 11:31

weixin_39833469的博客 refer to:dframe = pd.read_excel(“file_name.xlsx”)dframe = pd.read_excel(“file_name.xlsx”, sheetname=”Sheet_name”)dframe = pd.read_excel(“file_name.xlsx”, sheetname=number)原文如下:////////////...
如何将编辑完成的dataframe生成为xlsx文档并在文件名中加入系统当前日期时间 python
2019-01-24 10:13

回答 1 已采纳文件名不能包含:号.. 改成其他日期格式吧,例如 %Y%m%d_%H_%M_%S
Python转换excel文件，将xlsx文件转换为xls文件
2021-12-15 11:20

还是那个同伟伟的博客 Python将xlsx文件转换为xls文件
python将object转换为float_DataFrame中的object转换成float的方法
2020-12-08 15:12

weixin_39636411的博客 DataFrame中的object转换成float的方法数据类型转换：今天遇到一个问题，就是DataFrame类型的数据里是str型的数字，想把数字转换为int 或float；百度没有发现好的，也可能输入的关键字不对，找不到；DataFrame.info...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月11日

悬赏问题

¥30 VMware 云桌面水印如何添加
¥15 用ns3仿真出5G核心网网元
¥15 matlab答疑关于海上风电的爬坡事件检测
¥88 python部署量化回测异常问题
¥30 酬劳2w元求合作写文章
¥15 在现有系统基础上增加功能
¥15 远程桌面文档内容复制粘贴，格式会变化
¥15 这种微信登录授权谁可以做啊
¥15 请问我该如何添加自己的数据去运行蚁群算法代码
¥20 用HslCommunication 连接欧姆龙 plc有时会连接失败。报异常为“未知错误”

导入xlsx文件为DataFrame类型，转换为列表，分词后中括号和引号无法去除

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新