python爬虫数据爬取清洗

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-06-22 16:44
关注
解题思路：1.用requests.get（网页+搜索关键词）获取搜索页面链接，再get信息页面，bs4解析获取文本保存到excel.

2.从excel读取文本，re.sub(r"[^\w]+", " ", s)过滤字符串，用jieba分词words=[x for x in jieba.cut(s) if x !=' ']，获取分词列表。

3.将高频词列入stop_words列表，过滤掉，获取频数最高的10个单词及出现次数存入文本

4.用wordcloud作词云图。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python爬虫数据爬取清洗 python 有问必答
2021-06-22 16:13

回答 3 已采纳解题思路：1.用requests.get（网页+搜索关键词）获取搜索页面链接，再get信息页面，bs4解析获取文本保存到excel. 2.从excel读取文本，re.sub(r"[^\w]+", "
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
Python爬虫—爬取微博评论数据
2023-12-09 09:49

程序员晓晓的博客 Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，...
Python爬虫 XPath 爬取的数据为空 python
2021-11-20 15:43

回答 2 已采纳
通过python爬虫，爬取到的图片无法打开，请问要怎么办？ pycharm python
2021-08-11 23:59

回答 2 已采纳你是真的秀，没有请求图片地址获得数据肯定打不开啊，你写入的是列表的的文本的二进制，并不是图片的。应该在图片链接后面再请求一次图片网址，然后写入获得的响应数据的二进制内容，望采纳哈
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
Python爬虫 | 爬取微博和哔哩哔哩数据
2023-07-04 17:01

天下弈星~的博客利用python爬取b站和微博的一些数据并进行可视化
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
python爬虫的图片爬取 python 爬虫
2021-08-30 12:26

回答 2 已采纳按照下图这样就可以了
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python 爬虫爬取天气
2022-08-16 13:36

Katherine1029的博客 python 爬虫
Python爬虫，爬取瀑布流布局中的信息 python 有问必答
2022-01-20 20:40

回答 2 已采纳瀑布流一般是通过接口加载数据，直接请求接口获取数据就行了。只要是浏览器访问能加载出来的一般都可以获取到，只是难易程度不一样而已。比如有一些js生成的签名，如果js压缩过很难分析签名生成过程，可以考虑
python爬虫+数据清洗大作业，爬取历史天气进行分析
2023-12-23 11:22

最近做的作业，有需要的可以下载使用
Python爬虫可以爬取什么
2022-12-06 09:22

qq^^614136809的博客爬虫
没有解决我的问题, 去提问

悬赏问题

¥15 使用ue5插件narrative时如何切换关卡也保存叙事任务记录
¥20 软件测试决策法疑问求解答
¥15 win11 23H2删除推荐的项目，支持注册表等
¥15 matlab 用yalmip搭建模型，cplex求解，线性化处理的方法
¥15 qt6.6.3 基于百度云的语音识别不会改
¥15 关于#目标检测#的问题：大概就是类似后台自动检测某下架商品的库存，在他监测到该商品上架并且可以购买的瞬间点击立即购买下单
¥15 神经网络怎么把隐含层变量融合到损失函数中？
¥15 lingo18勾选global solver求解使用的算法
¥15 全部备份安卓app数据包括密码，可以复制到另一手机上运行
¥20 测距传感器数据手册i2c

python爬虫 数据爬取 清洗

3条回答 默认 最新

悬赏问题

python爬虫数据爬取清洗

3条回答默认最新