python爬虫：soup.select（）抓取信息路径表达问题

大家好：

在网上看到了一段关于使用python爬虫爬取小猪短租上房源信息的代码（请见出处： https://www.cnblogs.com/november1943/p/5230924.html ）

根据这个代码想要做一些拓展：额外爬取：房屋面积（如图所示）
图片说明

从后台来看相关的面积信息位置如下
图片说明

打算使用b4库的 soup.select（）功能抓取信息，但是不知道该如何告诉python 这条信息的路径...

请问大家这个信息的路径应该如何表达？

求点播感谢大家

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

Italink 2019-07-03 02:05

关注

没用过select，但看样子是这样用的

from bs4 import BeautifulSoup
import requests

url = 'http://bj.xiaozhu.com/fangzi/1508951935.html'
web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')

title = soup.select('div.pho_info > h4 ')[0].text
address = soup.select('div.pho_info > p ')[0].get('title')
price = soup.select('div.day_l > span')[0].text
area = soup.select('li.border_none >p ')[0].next
first_pic = soup.select('#curBigImage')[0].get('src')
landlord_pic = soup.select('div.member_pic > a > img')[0].get('src')
landlord_name = soup.select('div.w_240 > h6 > a')[0].text
if soup.select('span[class="member_girl_ico"]'):
    landlord_gender = 'female'
else:
    landlord_gender = 'male'
data = {
'title': title,
'address': address,
'price': price,
'area':area,
'first_pic': first_pic,
'landlord_pic': landlord_pic,
'landlord_name': landlord_name,
'landlord_gender': landlord_gender
}
print(data)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

python爬虫：soup.select（）抓取信息路径表达问题 python
2019-07-02 18:16

回答 1 已采纳没用过select，但看样子是这样用的 ``` from bs4 import BeautifulSoup import requests url = 'http://bj.xiaozhu
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
python报错：requests.exceptions.ConnectionError: ('Connection aborted.', OSError("(10060, 'WSAETIMEDOUT')")) python 开发语言
2020-03-02 19:59

回答 2 已采纳 10060 WSAETIMEDOUT 是请求超时了，请确认 res = requests.get(url) 这一句请求的地址是否拼接正确，如果是正确的，那就设置超时时间大一点吧。
python从web抓取信息（爬虫中soup.select()与soup.find_all()对比）
2020-08-11 17:56

LFX今天发财了吗的博客 pyperclip.paste() webbrowser.open(content) 打开cmd命令提示符，转换当前工作目录， C:\Users\Lenovo>cd "F:\python_work" #直接输入想要跳转的路径 C:\Users\Lenovo> #什么也没发生，但是系统已经接受了你的请求...
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬虫bs4中用select如何获取属性值 python
2021-12-26 12:33

回答 2 已采纳 ```python from bs4 import BeautifulSoup import re html = """ <html><head><title>
python爬虫运行没有结果的问题 python 爬虫
2023-02-24 21:28

回答 3 已采纳给你起个头，其它比较容易，一次请求了5000个，多了好像不行，试了9000个都可以，可以分两次 url="http://vip.stock.finance.sina.com.cn/fund_cent
python爬虫.rar
2024-05-17 09:28

在Python编程领域，爬虫是一种自动化获取网页信息的工具，广泛应用于数据分析、市场研究和信息检索等场景。...通过学习这个案例，你可以了解到Python爬虫的基础知识，为进一步的数据抓取和分析打下坚实的基础。
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
soup.find_all返回了空列表 list python
2022-04-11 19:59

回答 1 已采纳先打印soup看看是不是空,不行在用下面这句soup.find_all('div',attrs={"class":"item"})我看着你那样写没错的，我觉得可能soup就是空的
python爬虫检索超出范围报错 python 爬虫
2022-09-08 16:31

回答 3 已采纳你输出con，输出的con是空列表，说明你节点的定位是有问题的，直接去开发者面板复制定位路径
Python爬虫 - 使用python爬取微博热搜.zip
2024-02-02 11:43

在IT行业中，Python爬虫是一项重要的技能，尤其对于数据挖掘、数据分析和自动化信息获取等领域。本教程将聚焦于如何使用Python来爬取微博热搜数据，从而深入理解Python爬虫的基本原理和实践应用。首先，Python作为...
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python爬虫select用法_Python爬虫利器二之Beautiful Soup的用法
2020-12-22 12:29

weixin_39889544的博客 1. Beautiful Soup的简介简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个...
Python爬虫利器二之Beautiful Soup的用法.zip_python_爬虫_爬虫 python_爬虫 pyth
2022-09-19 23:08

总的来说，Beautiful Soup作为Python爬虫开发的重要工具，以其简洁的API和强大的解析能力，极大地简化了数据提取的过程。通过熟练掌握Beautiful Soup的使用，你将能更好地应对各种复杂的网页结构，高效地实现你的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月14日

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

python爬虫：soup.select（）抓取信息路径表达问题

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新