我在爬招标信息时,不同招标平台的html结构不一样,就算是同一个平台,不同文件的html结构也不一样
同一种内容信息可能在不同的节点中,节点层次结构也不一样,难以用人工写出一套提取信息的逻辑
自己试过直接把网页所有文本爬下来用空格分开,再标记关键词例如金额,提取下一个位置的信息,奈何还是太混乱,写不出一个通用的标准。
想问问有什么技术能实现这种混乱的数据结构化呢?机器学习也好,或者其他实现路径也好,求一个方向
我在爬招标信息时,不同招标平台的html结构不一样,就算是同一个平台,不同文件的html结构也不一样
同一种内容信息可能在不同的节点中,节点层次结构也不一样,难以用人工写出一套提取信息的逻辑
自己试过直接把网页所有文本爬下来用空格分开,再标记关键词例如金额,提取下一个位置的信息,奈何还是太混乱,写不出一个通用的标准。
想问问有什么技术能实现这种混乱的数据结构化呢?机器学习也好,或者其他实现路径也好,求一个方向
对于非结构化数据无法用一个模板去套用,只有用解析工具,比如bs4,lxml,re等去解析出数据。另外一个思路是将获取的数据用数据框形式。