爬虫一个静态网站的数据处理方式

爬虫,一个静态网站,里面的我画红色线遮盖的是文本内容,请求页面信息很简单,我想要把里面每句的文本内容拿出来,因为主文中没有标签,所不知道怎么单独拿出来,处理数据只是能把整个大盒子里的文本内容拿下来,不能把主文内容单独摘下来.,谢谢解答

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-郭老师 Java领域新星创作者 2024-02-10 22:12
关注
参考通义千问和郭老师的小迷弟雅思莫了-编写提供，主要是为了帮助您快速解决问题，如下回答，您可以参考下，如有问题，评论区留言。
处理一个静态网站中没有特定标签包裹的主文内容时，确实需要更精细的方法来提取所需文本。如果整个主文部分没有结构化的HTML标签加以区分，可以尝试以下几种方法：

XPath 或 CSS 选择器：尽管主文可能没有明显标签，但可以通过分析页面结构找到规律，比如利用周围的固定元素作为参考，或者通过文本位置、行间距等间接方式定位。然后使用 lxml 库中的 XPath 或 BeautifulSoup 库中的 CSS 选择器选取主文区域内的文本。

例如，如果有规律可循，可以尝试抽取某个 <div> 或 <p> 标签内的所有非空白文本，不包含子标签（如脚注、引用等）：

from bs4 import BeautifulSoup # 假设response.text是网页源代码 soup = BeautifulSoup(response.text, 'html.parser') main_text = [p.get_text().strip() for p in soup.select('#main-content > p:not(.footnote)')]

文本节点筛选：

如果所有文本都在文档流中连续出现，可以尝试获取所有文本节点并合并过滤。在 Python 的 Scrapy 框架或 lxml 库中，可以提取非脚本和样式表的文本节点：
text_list = response.xpath('//*[not(self::script or self::style)]/text()[normalize-space()]').getall() main_text = ' '.join(text_list)
然后根据文本之间的空行、特殊字符或其他特征进一步分割出主文内容。

正则表达式匹配：

在某些情况下，主文内容可能有一定的格式特征，例如前面提到的每句之间换行等，这时可以用正则表达式提取。这通常是在上述方法无法直接应用的情况下采取的一种补充手段。

基于自然语言处理 (NLP)：

对于难以通过HTML结构区分的内容，还可以先抓取整块文本，然后通过自然语言处理技术识别文章段落，比如利用句子分割算法进行划分。

手动规则制定：

针对具体网站，仔细观察其源码，找出主文区与其它非正文内容之间的差异，手工编写规则来提取。

总之，关键在于理解目标网站的布局和内容特点，以便准确地定位和提取主文内容。对于复杂的场景，可能需要结合多种策略来解决问题。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

python爬虫只能获得一条数据 python 爬虫
2022-08-23 18:15

回答 1 已采纳复制我的代码试试： import requests from bs4 import BeautifulSoup def get_page(link): headers = {'User-Ag
python爬虫一个小问题 python 爬虫
2023-02-17 09:21

回答 5 已采纳你的原代码拷贝过来执行的话，name返回的是None，也就是说你的选择器没有找到你期望的内容，调试代码修改如下：注意看打印输出的内容：所以检查下css选择器的代码是否正确吧有帮助的话，请点采
如何将爬虫爬取的数据进行排版 python 数据挖掘爬虫
2022-02-28 22:22

回答 1 已采纳看你想怎么处理了，可以放到一行，可以放到word里，可以用Excel，你选一个，我教你另外你的代码需要看一下，要不不好改
java爬虫webmagic抓取静态页面demo
2022-05-16 15:01

Java爬虫WebMagic是开发者常用来抓取网页数据的一个强大工具，尤其对于处理静态页面，它的易用性和灵活性使得在Java开发环境中非常受欢迎。WebMagic的设计理念是模块化，这使得我们可以灵活地组合各个组件来实现不同...
想用pycharm爬虫提取一个网页 pycharm python 爬虫
2021-07-30 00:11

回答 4 已采纳对你有帮助的话，建议采纳。
Jsoup写的一个简单的爬虫出现502 java 爬虫
2022-09-17 20:13

回答 1 已采纳这篇博客也许可以解决你的问题👉 ：Jsoup简单理解笔记
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
数据采集网络爬虫入门实战（asp版）
2021-06-10 14:26

数据采集网络爬虫是互联网时代一项重要的技术，它允许我们自动化地从网页中提取大量有用信息。本教程主要关注ASP（Active Server Pages）...记得结合压缩包内的资源，如源代码和练习材料，深入理解和实践每一个知识点。
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
Python爬虫在论坛查询数据 python 开发语言有问必答爬虫
2022-11-10 10:27

回答 2 已采纳查询出来的都是我大号的金币数量根据这个提示cookie没有更新，发送查询请求时仍然是大号的cookie身份信息
scrapy爬虫相关关于json数据的处理 json 爬虫
2018-03-14 09:42

回答 1 已采纳使用 JSON 函数需要导入 json 库：import json
网络爬虫数据采集，使用golang语言.zip
2024-01-03 00:58

首先，Golang，又被称为Go语言，是由Google开发的一种静态类型、编译型、并发型且具有垃圾回收功能的编程语言。它的设计目标是提高软件开发的生产力和效率，特别适合处理并发任务和网络编程，因此在网络爬虫领域表现...
Python快乐编程-网络爬虫
2024-01-26 10:43

在实际操作中，数据的存储也是一个重要环节。我们可以使用pandas库将数据存储为CSV或Excel文件，或者利用SQLite、MySQL等数据库进行存储。同时，要学会处理可能出现的异常，如网络连接错误、编码问题等，确保爬虫的...
实战Go语言：并发爬虫
2021-06-10 14:13

Go语言，也称为Golang，是由Google开发的一种静态类型、编译型、并发型且具有垃圾回收功能的编程语言，特别适合用于并发处理任务，如网络爬虫。首先，我们要了解的核心概念是正则表达式（Regular Expression）。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月10日

悬赏问题

¥15 Mac版Fiddler Everywhere4.0.1提示强制更新
¥15 android 集成sentry上报时报错。
¥50 win10链接MySQL
¥35 跳过我的世界插件ip验证
¥15 抖音看过的视频，缓存在哪个文件
¥15 自定义损失函数报输入参数的数目不足
¥15 如果我想学习C大家有是的的资料吗
¥15 根据文件名称对文件进行排序
¥15 deploylinux的ubuntu系统无法成功安装使用MySQL❓
¥15 有人会用py或者r画这种图吗

爬虫一个静态网站的数据处理方式

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新