有一列关键词数据,列中的每个数据包含若干个词组,大部分是用空格隔开,有个别是不规则的可能有,- ()等符号,部分数据如下:
搜索词
planters for indoor plants
planters
hanging planter
planter
gardening pots, planters & accessories
wall planter
self watering planters
self watering planter insert
hanging planters for indoor plants
planters for outdoor plants
succulent planters
wall planters for indoor plants
想通过python来实现将这几十万行的数据统计词频,并且标记词性(名词、动词、形容词等)介词for to等直接清除忽略
其中一些不规则的符号也去掉
最终结果写入原csv文件的第二个新建表,数据包含字段(关键字、频次、词性)
不知道这样的实现目的在python里面算不算高,初学python,想用于实际工作中