新人入坑爬虫的一个小小问题麻烦各位大佬帮我讲讲

最近买了本爬虫书他是用chrome 开发者工具的copyselectorr来获取元素地址
我按照书上爬取小猪租房网比方说我怕取图片上的的地址按照copyselector 粘贴过来的是body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > p > span 但是程序运行不对输出空白改成这样就对了'div.con_l > div.pho_info > p > span' 请问这是为什么呢为什么删掉就行本人目前大一水平有限望各位大佬用尽量简单的知识讲解图片说明以下是我的代码问题对应adresss那行

 #encoding:utf-8
from bs4 import BeautifulSoup
import requests
import time

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'}


def get_links(url):
    wbdata = requests.get(url, headers=headers)
    print(wbdata.status_code)
    soup = BeautifulSoup(wbdata.text, 'lxml')
    links = soup.select('#page_list > ul > li > a')
    for link in links:
        href = link.get("href")
        get_info(href)


def get_info(url):

    wbdata = requests.get(url, headers=headers)
    soup = BeautifulSoup(wbdata.text, 'lxml')
    tittles = soup.select('div.pho_info > h4')
    addresss = soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > p > span')
    prices = soup.select('#pricePart > div.day_l > span')
    for tittle, address, price in zip(tittles, addresss, prices):
        data={'tittle':tittle.get_text().strip(),'address':address.get_text().strip(),'price':price.get_text()}
        print(data)

if __name__ == '__main__':
    urls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(number) for number in range(1, 3)]
    for ursl in urls:
        get_links(ursl)
        time.sleep(2)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
脱裤儿任风吹 2018-01-13 09:09
关注
你是真的执着，你看一下，body下取div，他只能取到 .detail_wrapper的div标签，查看soup的内容，又没错，取不出来当然可能是parser的问题导致没成功解析出来，你再试试换一个解析器
。发现能出结果了不是，这不是表明问题很可能是解析器设计者的某些东西没考虑全面，你非要在这种问题上较真

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

一篇万字博文带你入坑爬虫这条不归路【万字图文】
2022-07-28 22:30

m0_67393157的博客这样一讲，是不是就很通俗易懂、记忆深刻了~下面就给出书面化的定义，多揣摩揣摩哦网络爬虫也叫网络蜘蛛，它特指一类自动批量下载网络资源的程序，这是一个比较口语化的定义。网络爬虫是_伪装_成客户端与服务端进行...
2024年网络安全最新愿安全人不再踩坑，网络安全学习经验_leavesongs是p神吗
2024-05-03 22:52

2401_84301315的博客程序员UP，非常的接地气，内容：Java和C以及一些经验啥的2. 漏洞银行、DeeLMind不定期邀请大佬来做客分享知识3. 星盟安全团队、涅普科技、Gcow安全团队星盟CTF安全团队，现在正在更新pwn入门，大佬牛的大佬博客。
泪目，女友跳槽太不容易了，挂了8家公司，终于收获京东offer_京东程序员社招(1)
2024-04-29 16:16

2401_84281748的博客别的不说，就拿推荐领域而言，近些年质量不错的论文往往都来源于...别的不说，就拿个人能力而言，我曾出国出差过几个月，有幸见识了许多各种海外名校的同事，和他们学习交流人工智能，这真的让我AI有了更深层次的认识。
CSDN社区排名出炉了，来看看你的排名是多少？
2021-10-30 12:25

Hann Yang的博客 ID = 126 〖CSS〗【粉丝数】60179 【帖子数】60448 【创建日】2007-09-28 【菜单项】全部、问答【简　介】层叠样式表(英文全称：Cascading Style Sheets)是一种用来表现HTML（标准通用标记语言的一个应用）或XML...
没有解决我的问题, 去提问

新人入坑爬虫的一个小小问题 麻烦各位大佬帮我讲讲

5条回答 默认 最新

新人入坑爬虫的一个小小问题麻烦各位大佬帮我讲讲

5条回答默认最新