求爬虫数据结构化技术路径

我在爬招标信息时，不同招标平台的html结构不一样，就算是同一个平台，不同文件的html结构也不一样
同一种内容信息可能在不同的节点中，节点层次结构也不一样，难以用人工写出一套提取信息的逻辑

自己试过直接把网页所有文本爬下来用空格分开，再标记关键词例如金额，提取下一个位置的信息，奈何还是太混乱，写不出一个通用的标准。
想问问有什么技术能实现这种混乱的数据结构化呢？机器学习也好，或者其他实现路径也好，求一个方向

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2022-01-04 11:50
关注
对于非结构化数据无法用一个模板去套用，只有用解析工具，比如bs4,lxml，re等去解析出数据。另外一个思路是将获取的数据用数据框形式。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python 学了爬虫和一些数据结构、算法以后，再学点什么好 python 数据结构算法
2022-04-11 20:44

回答 2 已采纳事实上，爬虫的知识体系也是比较庞大的（在技能树中）：如果你还有兴趣，可以深挖一下爬虫工程。没兴趣的话，那你可以尝试下web开发、GUI编程、AI，这些都很有趣。你还可以尝试设计一个大型项目，在学习新
如何将爬虫爬取的数据进行排版 python 数据挖掘爬虫
2022-02-28 22:22

回答 1 已采纳看你想怎么处理了，可以放到一行，可以放到word里，可以用Excel，你选一个，我教你另外你的代码需要看一下，要不不好改
无法将爬虫数据可视化 python
2022-06-08 18:40

回答 1 已采纳网上抓下来的数据都是字符串，要转成数字先把这句df[['观看量']].plot(kind='bar')改成pd.to_numeric(df['观看量']).plot(kind='bar')再试试
Python爬虫数据可视化分析大作业.zip
2022-05-29 09:59

总的来说，"Python爬虫数据可视化分析大作业"是一个全面的项目，涵盖了从数据获取、处理、分析到可视化的整个流程，同时结合了多种现代技术，如NLP、GIS、机器学习等，对于提升你的Python开发能力和数据分析能力具有...
python爬虫数据显示问题 python 爬虫
2022-07-20 16:54

回答 3 已采纳首先，你这里写错了divs = query(".cm-content-box").items()
抓包数据和爬虫数据不一样 python 爬虫
2022-09-16 18:03

回答 1 已采纳补全headers和cookies相关参数再去请求就好了
爬虫爬到的数据和看见的数据不一样 python 爬虫
2022-02-21 22:34

回答 1 已采纳在xpath里把tr[3]改成tr就可以了，因为网页里的表格奇数行和偶数行不是一个tr下的元素
Python 网络爬虫及数据可视化
2021-01-11 18:47

BoBo玩ROS的博客 1.3 数据可视化 2 1.4 Python环境介绍 2 1.4.1 简介 2 1.4.2 特点 3 1.5 扩展库介绍 3 1.5.1 安装模块 3 1.5.2 主要模块介绍 3 ① pandas模块 3 ② requests模块 4 ③ bs4模块 4 ④ selenium模块 4 ⑤ matplotlib...
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫数据与网页不一致 python 爬虫
2022-08-16 16:50

回答 2 已采纳 rows是行数，你改成10000，一次性爬完，不用翻页。
爬虫数据解析的时候出现的问题？ python 爬虫
2022-12-28 14:44

回答 2 已采纳为什么解码不了，因为返回的是一张图片。。。可以加上这两行看一下 res = requests.get(url = p_url, headers = p_headers) with open('.\\6
2020年的 python视频课程，人工智能、AI、爬虫、数据分析
2021-08-30 11:45

Python是一种高级编程语言，因其简洁明了的语法和强大的功能，近年来在IT行业中迅速崛起，特别是在人工智能、数据科学以及网络爬虫等领域应用广泛。本2020年的Python视频课程全面覆盖了Python的基础与进阶内容，旨在...
python爬虫只能获得一条数据 python 爬虫
2022-08-23 18:15

回答 1 已采纳复制我的代码试试： import requests from bs4 import BeautifulSoup def get_page(link): headers = {'User-Ag
AI交互及爬虫【数据分析】
2024-06-24 17:49

逐渐丰富的阿川的博客 1956年在美国召开了第一场人工智能研讨会，由此人类开始了对人工智能道路探索。在这场会议上，纽维尔和西蒙演示了一个名为"逻辑学家"的程序充分展示了机器能做类似推理的工作。在这个会议上人工智能获得了定义。 ...
Python 开源项目，保姆级教程：AI实验室、宝藏视频、数据结构、学习指南、机器学习实战、深度学习实战、网络爬虫、大厂面经
2024-06-17 00:15

在Python编程领域，数据结构是理解复杂算法和高效编程的基础。本资源包提供了一套全面的Python数据结构学习材料，适合初学者和有一定经验的开发者深入理解这一关键概念。让我们一起探讨这些知识点，并通过实践来加强...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月4日

悬赏问题

¥15 is not in the mmseg::model registry。报错，模型注册表找不到自定义模块。
¥15 安装quartus II18.1时弹出此error，怎么解决？
¥15 keil官网下载psn序列号在哪
¥15 想用adb命令做一个通话软件，播放录音
¥30 Pytorch深度学习服务器跑不通问题解决？
¥15 部分客户订单定位有误的问题
¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
¥15 Bug traq 数据包大概什么价
¥15 在anaconda上pytorch和paddle paddle下载报错
¥25 自动填写QQ腾讯文档收集表

求爬虫数据结构化技术路径

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新