python爬虫数据爬取清洗

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-06-22 16:44
关注
解题思路：1.用requests.get（网页+搜索关键词）获取搜索页面链接，再get信息页面，bs4解析获取文本保存到excel.

2.从excel读取文本，re.sub(r"[^\w]+", " ", s)过滤字符串，用jieba分词words=[x for x in jieba.cut(s) if x !=' ']，获取分词列表。

3.将高频词列入stop_words列表，过滤掉，获取频数最高的10个单词及出现次数存入文本

4.用wordcloud作词云图。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
Python爬虫，爬取瀑布流布局中的信息 python 有问必答
2022-01-20 20:40

回答 2 已采纳瀑布流一般是通过接口加载数据，直接请求接口获取数据就行了。只要是浏览器访问能加载出来的一般都可以获取到，只是难易程度不一样而已。比如有一些js生成的签名，如果js压缩过很难分析签名生成过程，可以考虑
Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，...在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。
Python爬虫 XPath 爬取的数据为空 python
2021-11-20 15:43

回答 2 已采纳
通过python爬虫，爬取到的图片无法打开，请问要怎么办？ pycharm python
2021-08-11 23:59

回答 2 已采纳你是真的秀，没有请求图片地址获得数据肯定打不开啊，你写入的是列表的的文本的二进制，并不是图片的。应该在图片链接后面再请求一次图片网址，然后写入获得的响应数据的二进制内容，望采纳哈
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
python爬虫，爬取页面
2023-07-08 10:51

通过这个简单的项目，你可以掌握Python爬虫的基础知识，并逐渐提升到更高级的应用，如数据存储、数据清洗、爬虫框架（如Scrapy）的使用等。持续学习和实践，你将能开发出更加高效、智能的爬虫系统。
python爬虫的图片爬取 python 爬虫
2021-08-30 12:26

回答 2 已采纳按照下图这样就可以了
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
Python爬虫爬取某网站数据
2024-01-23 17:26

Python爬虫技术是一种用于自动化网页数据抓取的工具，它能够高效地遍历网页，提取所需信息。在本示例中，我们关注的是使用Scrapy框架来实现这一目标。Scrapy是一个强大的Python爬虫框架，它提供了丰富的功能，如请求...
python爬虫，爬取网易云音乐评论
2023-02-02 11:17

本教程将详细讲解如何使用Python爬虫爬取网易云音乐的评论数据，这将涉及到网络请求、HTML解析、数据存储等多个知识点。首先，我们需要了解Python中的网络请求库，如`requests`。`requests`库使得我们能够向指定...
python爬虫 - 爬取图片
2024-04-12 15:15

牛魔王的小怪兽的博客使用 .urlretrieve() 函数 2、爬取图片示例2 - 使用 open/write 函数 3、爬取图片示例3 3.1 使用 open/write 下载 3.2 使用 urlretrieve下载爬虫的本质：模拟对应的App，浏览器访问对应的地址获取到数据 ...
没有解决我的问题, 去提问

悬赏问题

¥15 做个有关计算的小程序
¥15 MPI读取tif文件无法正常给各进程分配路径
¥15 如何用MATLAB实现以下三个公式（有相互嵌套）
¥30 关于#算法#的问题：运用EViews第九版本进行一系列计量经济学的时间数列数据回归分析预测问题求各位帮我解答一下
¥15 setInterval 页面闪烁，怎么解决
¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动
¥20 对于工程问题的非线性数学模型进行线性化

python爬虫 数据爬取 清洗

3条回答 默认 最新

悬赏问题

python爬虫数据爬取清洗

3条回答默认最新