如何用Python3爬取百度百科(最好lxml+requests，当然别的也行）？

我需要爬取的是百度百科词条简介部分

http://baike.baidu.com/item/xxx

思路：

导入模块+输入检索词+爬取词条简介部分+输出result

以下是错误代码！

from lxml import html
import requests
search_word=input('请输入检索词')
page=requests.Session().get(url='https://baike.baidu.com/item/'+search_word)
tree=html.fromstring(page.text)
result=tree.xpath('//div[@class="lemma-summary"]//a/text()')
print(result)

求大佬帮忙

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

远方_流浪 2021-04-28 23:48

关注

基本问题，爬数的时候，模拟一下头文件浏览器打开

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36'}

这样就可以正常拿到数据了

完整代码如下（返回的部分是有一些html转义字符的，暂时没有去除）

# !usr/bin/env python
# -*-coding:utf-8 -*-
import requests
from lxml import etree
import re


def get_info(keyword: str):
    url = f'https://baike.baidu.com/item/{keyword}'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/90.0.4430.85 Safari/537.36'
    }
    try:
        r = requests.get(url, headers=headers)
        r.encoding = 'utf-8'
        tree = etree.HTML(r.text)
        divs = tree.cssselect('div.lemma-summary>.para')
        lis_text = []
        for div in divs:
            st = re.sub('<[^>]+>', '', etree.tounicode(div))
            lis_text.append(st)
        return '\n'.join(lis_text)
    except Exception as e:
        print(e)
        return 


if __name__ == '__main__':
    keyword = 'python'
    info = get_info(keyword)
    print(info)

运行结果：

Python由荷兰数学和计算机科学研究学会的Guido van Rossum 于1990 年代初设计，作为一门叫做ABC语言的替代品。
[1] 
Python提供了高效的高级数据结构，还能简单有效地面向对象编程。Python语法和动态类型，以及解释型语言的本质，使它成为多数平台上写脚本和快速开发应用的编程语言，
[2] 
随着版本的不断更新和语言新功能的添加，逐渐被用于独立的、大型项目的开发。
[3] 

Python解释器易于扩展，可以使用C或C++（或者其他可以通过C调用的语言）扩展新的功能和数据类型。
[4] 
Python 也可用于可定制化软件中的扩展程序语言。Python丰富的标准库，提供了适用于各个主要系统平台的源码或机器码。
[4]

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

python3 +lxmL+requests+pycharm组件爬取图片建议使用pyCharm编辑器
2017-12-23 00:17

看网站图片，还要翻页，不得劲，干脆直接爬过来，嗯。
Python 爬虫爬取网页内容（lxml+requests）（#有手就行系列）
2021-07-08 15:42

anbula的博客 #有手就行系列 – 网页爬取（简易版） 1、准备阶段 1）下载[链接的代码文档](https://download.csdn.net/download/anbula/20086749)（anaconda打开）或是文末的代码 2）进行尝试，点击运行查看是否有报错 ![在这里...
python爬虫爬取百度百科页面.zip
2025-01-03 09:49

本次分享的“python爬虫爬取百度百科页面.zip”压缩包，就展示了如何利用Python语言以及相应的库来爬取和处理来自百度百科的信息。百度百科是中国最大的中文百科全书，其内容丰富、涵盖广泛，是爬虫技术学习者非常...
Python + 基于多线程 + requests+bs4+lxml 爬取斗图网站图片.zip
2026-01-09 14:42

Python + 基于多线程 + requests+bs4+lxml 爬取斗图网站图片.zip
python爬虫之爬取百度百科.rar
2024-01-12 16:16

总的来说，Python爬虫爬取百度百科涉及的知识点包括：HTTP协议与requests库的使用、HTML解析（BeautifulSoup或lxml）、网页结构分析、爬虫策略与反反爬、数据存储等。通过这个过程，你可以深入了解Web爬虫的工作原理...
[Python] requests + lxml爬取网页图片
2022-03-10 16:59

@ chen的博客 python使用requests库和lxml库爬取网页图片
python爬虫爬取百度百科带界面.rar
2019-06-23 18:44

在本项目中，“python爬虫爬取百度百科带界面.rar”是一个包含Python爬虫程序的压缩包，旨在从百度百科抓取数据并提供一个用户界面进行数据管理和展示。以下是该项目涉及的主要知识点及其详细说明： 1. **Python...
用python实现的爬取小说网站资源的爬虫毕业设计基于lxml和requests
2023-01-11 03:21

总的来说，这个毕业设计项目展示了如何使用Python结合lxml和requests构建一个实用的网络爬虫，涵盖多线程爬取、数据存储和错误处理等多个关键环节。对于学习Python爬虫开发的学生或开发者来说，这是一个很好的实践...
使用python3爬取1000个百度百科页面
2019-08-10 07:44

总结来说，使用Python3爬取百度百科页面涉及网络请求、HTML解析、数据提取和存储等多个环节。理解并熟练运用相关库和方法是成功爬取的关键。需要注意的是，爬虫活动应遵守网站的robots.txt协议，并尊重数据版权，...
python requests爬取高德地图数据的实例
2020-09-19 23:23

本文主要介绍如何使用Python语言中的requests库来爬取高德地图的数据，并将爬取的数据存储到Excel表格中。在讲解之前，我们首先了解一些基础知识。首先，Python是一种广泛用于网络编程的高级编程语言。由于其简洁...
python爬取百度百科搜索结果_用Python抓取百度搜索结果,python,爬取,的
2021-02-04 05:54

weixin_39716160的博客前言前几天爬的今天整理了一下发现就两个需要注意的点一是记得用带cookie的方式去访问，也就是实例化requests.session()二是转化一下爬取到的url，访问爬到的url得到返回的Location值，该值便是真实的地址(如果你...
python 百度百科爬虫_爬虫爬取百度百科数据
2020-11-29 10:53

weixin_39667801的博客以前段时间《青春有你2》为例，我们使用Python来爬取百度百科中《青春有你2》所有参赛选手的信息。什么是爬虫？为了获取大量的互联网数据，我们自然想到使用爬虫代替我们完成这些重复的工作。爬虫的过程，就是模仿...
利用Python爬取百度百科词条
2018-10-23 20:01

本项目以"利用Python爬取百度百科词条"为主题，旨在教授如何使用Python基础爬虫技术抓取百度百科上的信息，包括词条标题、摘要和链接等关键数据。首先，我们来看`URLManager.py`，这个文件通常用于管理待爬取的URL...
Python爬虫实战：高效爬取百度百科数据并解析（附完整代码）
2025-02-14 15:12

菜鸟养成_记的博客百度百科作为全球最大的中文百科全书，包含超过2400万个词条。A：1）检查CSS选择器是否更新 2）查看页面是否跳转验证码 3）确认网络环境正常。A：1）更新User-Agent 2）增加访问间隔 3）检查IP是否被封禁。：高性能...
Python实现美食数据爬取+数据分析+数据可视化.zip
2022-01-06 12:25

在本项目"Python实现美食数据爬取+数据分析+数据可视化.zip"中，主要涉及了三个核心环节：数据爬取、数据分析以及数据可视化。这个项目基于Python编程语言，利用其强大的库来完成整个流程，让我们逐一深入探讨这些...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

如何用Python3爬取百度百科(最好lxml+requests，当然别的也行）？

1条回答默认最新

码龄粉丝数原力等级 --

如何用Python3爬取百度百科(最好lxml+requests，当然别的也行）？

1条回答 默认 最新

1条回答默认最新