匹诺曹的鲸 2022-01-04 11:38 采纳率: 50%
浏览 39

求爬虫数据结构化技术路径

我在爬招标信息时,不同招标平台的html结构不一样,就算是同一个平台,不同文件的html结构也不一样
同一种内容信息可能在不同的节点中,节点层次结构也不一样,难以用人工写出一套提取信息的逻辑

img

img

img

自己试过直接把网页所有文本爬下来用空格分开,再标记关键词例如金额,提取下一个位置的信息,奈何还是太混乱,写不出一个通用的标准。
想问问有什么技术能实现这种混乱的数据结构化呢?机器学习也好,或者其他实现路径也好,求一个方向

  • 写回答

1条回答 默认 最新

  • CSDN专家-HGJ 2022-01-04 11:50
    关注

    对于非结构化数据无法用一个模板去套用,只有用解析工具,比如bs4,lxml,re等去解析出数据。另外一个思路是将获取的数据用数据框形式。

    评论

报告相同问题?

问题事件

  • 创建了问题 1月4日

悬赏问题

  • ¥15 is not in the mmseg::model registry。报错,模型注册表找不到自定义模块。
  • ¥15 安装quartus II18.1时弹出此error,怎么解决?
  • ¥15 keil官网下载psn序列号在哪
  • ¥15 想用adb命令做一个通话软件,播放录音
  • ¥30 Pytorch深度学习服务器跑不通问题解决?
  • ¥15 部分客户订单定位有误的问题
  • ¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
  • ¥15 Bug traq 数据包 大概什么价
  • ¥15 在anaconda上pytorch和paddle paddle下载报错
  • ¥25 自动填写QQ腾讯文档收集表