weixin_44823848 2021-06-22 16:13 采纳率: 100%
浏览 203
已采纳

python爬虫 数据爬取 清洗

 

  • 写回答

3条回答 默认 最新

  • CSDN专家-HGJ 2021-06-22 16:44
    关注

    解题思路:1.用requests.get(网页+搜索关键词)获取搜索页面链接,再get信息页面,bs4解析获取文本保存到excel.

    2.从excel读取文本,re.sub(r"[^\w]+", " ", s)过滤字符串,用jieba分词words=[x for x in jieba.cut(s) if x !=' '],获取分词列表。

    3.将高频词列入stop_words列表,过滤掉,获取频数最高的10个单词及出现次数存入文本

    4.用wordcloud作词云图。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?