百度爬来的人名的网页，如何更有效的清洗和提取？有没有什么好的逻辑？

最近再做个小项目，需要按人名在百度里爬下来网页，再综合起来，形成这个人的摘要。这些人的相关信息都是只言片语，散落在各个网页。现在遇到了一些问题：

1、如果把整个html的文本取出来，很多信息是无用的。
2、如果只取含有人名的句子，有可能后面有很多内容都与人名相关。
3、如果按照段落来取，很多段落在html里都是被切开成一句一句的，甚至标点符号都被切开。
4、如果网页包含人名的简介，但通常都是与人名的标签或简介等字样的标签分开的，这部分不好提取出来，怎么办？

有没有什么好的思路？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Yajun-Z 2019-04-11 14:22
关注
可是想做类似于人物画像一样的功能？还是大而全的那种？

如果是我来问你几个问题：
1. 同名的怎么处理，机器能识别吗？
2. 不同的网站结构完全不一样，爬虫怎么写？（涵盖你问题的1.2.3.4）
3. 大量重复内容怎么合并？

我的问题是有前提的：大而全。如果在这个前提下，我认为你的问题针对个人或小团体来说无解，对大公司也是个麻烦事。

有一个替代方案是：小而精。找到几个知名或常用的目标站点，针对几个站点分别写爬虫，最后做综合，即使如此，你还要解决问题1和3

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

为什么第三行小明，小红等人名没有跟随数字显示出来？python python
2022-01-10 18:42

回答 1 已采纳 list()把字典类型转成列表时，只留下 key，对应的value被舍弃了
Java语言高分悬赏：用正则表达式怎么样将一段小说文本中所有的人名全部提取出来呢？开发语言
2020-05-04 15:13

回答 1 已采纳这里的核心就是写一个匹配汉字的正则： ``` public static void regxChinese(){ // 要匹配的字符串 String
如何使用python爬虫从企查查上获得专利文献内容？ python windows 有问必答爬虫
2021-12-18 11:16

回答 2 已采纳题主要的代码如下， from bs4 import BeautifulSoup import requests header = {"user-agent":"Mozilla/5.0.html (
自然语言处理（NLP）一直是人工智能领域的一项重要任务，其涉及到从文本中提取特征、组织数据、训练模型等诸多复杂任务。如何有效地进行文本理解和分析?
2023-07-31 01:13

禅与计算机程序设计艺术的博客自然语言处理（NLP）一直是人工智能领域的一项重要任务，其涉及到从文本中提取特征、组织数据、训练模型等诸多复杂任务。如何有效地进行文本理解和分析，成为一个重要研究课题。近年来，随着计算能力的提升和硬件...
代码有什么问题吗？，No one 总输出不出来 c语言
2022-01-10 20:59

回答 3 已采纳其一，你可以试试只输入一个点，应该会出来no one。其二，输入的while循环中的i有误--原本应该是表示输入的人名行数的，结果却变成了输入的字符（连同最后的那个点在内）的数量
Excel中应该用什么函数来从第一个单元格提取出相关的信息其他
2023-03-29 09:35

回答 1 已采纳 https://jingyan.baidu.com/article/f54ae2fcd7fab75f93b8495f.html
【Python】如何使用Python对比两个Excel乱序名单，查看是否缺少人名？ python 开发语言数据分析
2022-03-01 11:46

回答 5 已采纳 import pandas as pd #导入EXCEL文件 #在需要匹配的表格中增加一列匹配字段 excel_one = pd.read_excel(r'C:/Users/Admin/Deskto
【大模型信息抽取】KnowLM：知识图谱 + 大模型，实现更有效的信息抽取和知识管理
2024-02-02 09:47

Debroon的博客右侧更专注于指令数据集，包括实体识别（NER）、关系抽取（RE）、事件抽取（EE）等NLP任务，以及各种中文和英文的数据集。左侧用于预训练的数据集，包括中文（红色）、英文（绿色）、代码（蓝色），以及这些数据的...
python关于人名的问题有人看看吗 python
2022-05-15 14:43

回答 2 已采纳按75%，20%，5%的比例生成一个包括2,3,4的数列然后随机打乱，再随机取出其中50个组成新的数列。此时，75%，20%，5%这些比例是“大概”的然后在汉字字串中随机取出2~4个组成名字 impo
如何编写函数统计学生平均分，并按平均分高低打印人名？ c语言
2021-03-03 12:00

回答 1 已采纳 #include<stdio.h> #include<string.h> #include<algorithm> using namespace std; type
我的修改功能是有什么问题吗，为什么运行到填写修改的名字后，就不运行了？ c语言有问必答
2021-12-02 14:32

回答 2 已采纳（1）int i 没有初始化（2）scanf("%s",&modename)去掉&。（3）下面所有的scanf中的&都去掉（4）scanf("%r\n",&r);改成 scanf("%d",&r);
AI：人工智能
2023-12-13 21:47

AnyaPapa的博客计算机视觉（Computer Vision）是人工智能（Artificial Intelligence，AI）领域的一个重要分支，主要研究如何让计算机从图像或视频中获取信息，模拟人类视觉系统，实现对物体、场景和行为的识别、理解和分析。人工...
［name］的意义，这里name的来龙去脉是什么？ python
2022-11-19 23:34

回答 1 已采纳 [name]在你提供的代码里应该是[names]，它是第二个for循环里遍历字典favorite_languages里的所有的键的当前键对应的值，具体分析如下：表示人名的是第一个for循环的name，
AGI：人工智能大模型领域实战篇—设计一个类似GPT-3.5/GPT-4的大模型从开发→部署→应用需要经过的八大步骤、为什么只有少数公司和机构能够承担这样的训练成本之详细介绍
2023-04-15 09:42

一个处女座的程序猿的博客 AGI：人工智能大模型领域实战篇—设计一个类似GPT-3.5/GPT-4的大模型从开发→部署→应用需要经过的八大步骤、为什么只有少数公司和机构能够承担这样的训练成本之详细介绍目录深思：为什么只有少数公司和机构...
什么是文本标注？
2021-12-17 18:56

景联文科技的博客文本标注是对文本进行特征标记的过程，对其打上具体的语义、构成、语境、目的、情感等原数据标签，通过标注好的训练数据，我们就可以教会机器如何来识别文本中所隐含的意图或者情感，使机器可以更加人性化的理解语言...
RAG知识图谱构建中的数据清洗与预处理
2024-03-31 00:23

禅与计算机程序设计艺术的博客随着人工智能技术的不断发展,知识图谱作为一种结构化的知识表示方式,在自然语言处理、问答系统、推荐系统等领域得到了广泛应用。其中,基于深度学习的开放域知识图谱构建系统RAG(Retrieval-Augmented Generation)备受...
自然语音处理（NLP）系列（三）——什么是序列标注？
2022-09-05 09:14

景联文科技的博客景联文科技提供的产品为全链条AI数据服务，从数据采集、清洗、标注、到驻场的全流程、垂直领域数据解决方案一站式AI数据服务，协助人工智能企业解决整个人工智能链条中数据标注环节的相对应问题。景联文科技｜AI...
基于自然语言生成技术的语义理解：实现智能对话和自动摘要的核心技术
2023-06-29 04:56

禅与计算机程序设计艺术的博客 1.1. 背景介绍随着互联网技术的快速发展，智能对话和自动摘要是越来越多应用场景的需求。智能对话可以提高用户体验，增强交互效果；自动摘要可以快速获取文章或文档的关键内容，为用户提供便利。而自然语言生成技术...
第一章：AI大模型概述1.1 AI大模型的定义与特点1.1.2 AI大模型的关键技术
2024-01-16 02:26

禅与计算机程序设计艺术的博客 AI大模型是指具有极大规模、高度复杂性和强大能力的人工智能系统，它们通常基于深度学习、自然语言处理、计算机视觉等领域的技术，能够处理大量数据、学习复杂规律，并在各种应用场景中取得出色的表现。AI大模型的...
什么是人机对话模型？阿里小蜜团队写了1.5万字
2020-02-10 10:24

阿里开发者的博客简介：从人工智能研究的初期开始，人们就致力于开发高度智能化的人机对话系统。对话管理模型研究最新进展源于前沿的深度的研究…… 作者：戴音培1、虞晖华2、蒋溢轩2、唐呈光1、李永彬1、孙健1 单位：阿里巴巴-...
没有解决我的问题, 去提问

悬赏问题

¥15 oracle集群安装出bug
¥15 关于#python#的问题：自动化测试
¥20 问题请教！vue项目关于Nginx配置nonce安全策略的问题
¥15 教务系统账号被盗号如何追溯设备
¥20 delta降尺度方法，未来数据怎么降尺度
¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet，要求快速高效
¥15 再不同版本的系统上，TCP传输速度不一致
¥15 高德地图2.0 版本点聚合中Marker的位置无法实时更新，如何解决呢？
¥15 DIFY API Endpoint 问题。
¥20 sub地址DHCP问题

百度爬来的人名的网页，如何更有效的清洗和提取？有没有什么好的逻辑？

1条回答 默认 最新

悬赏问题

1条回答默认最新