为啥总是反复爬取第一个页面，有没有人能解决一下？


from pandas import DataFrame as DF
import requests
from bs4 import BeautifulSoup as BS

url = 'https://wh.lianjia.com/ershoufang/wuchang/'
urls = ['https://wh.lianjia.com/ershoufang/wuchang/pg{}'
        .format(i) for i in range(1,101)]
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'}
html = requests.get(url,headers=headers)
bs_house = BS(html.text,'html.parser')
house_data = DF(columns=['标题','小区','地区','户型','面积','朝向','装修情况','楼层','楼型','总价','单价'])
for url in urls:
    html = requests.get(url,headers=headers)
    title = bs_house.findAll('div',{'class':'title'})
    position_info = bs_house.findAll('div',{'class':'positionInfo'})
    house_info = bs_house.findAll('div',{'class':'houseInfo'})
    total_price = bs_house.findAll('div',{'class':'totalPrice totalPrice2'})
    unit_price = bs_house.findAll('div',{'class':'unitPrice'})
    for i,j,k,a,b in zip(title,position_info,house_info,total_price,unit_price):
        data = {
            '标题':i.text.strip(),
            '小区':j.text.split('-')[0].strip(),
            '地区':j.text.split('-')[1].strip(),
            '户型':k.text.split('|')[0].strip(),
            '面积':k.text.split('|')[1].strip(),
            '朝向':k.text.split('|')[2].strip(),
            '装修情况':k.text.split('|')[3].strip(),
            '楼层':k.text.split('|')[4].strip(),
            '楼型':k.text.split('|')[5].strip(),
            '总价':a.text.strip(),
            '单价':b.text.strip()
        }
        house_data = house_data._append(data,ignore_index=True)
house_data.to_excel(r'E:\secondhandhouse\wuchang_secondhand_house.xlsx')

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-05-05 08:34

关注

引自免费微信小程序：皆我百晓生

在您提供的代码中，问题出在对网页内容解析的部分。bs_house 变量只包含了初始URL（'https://wh.lianjia.com/ershoufang/wuchang/'）的HTML内容。在循环中，虽然请求了不同的分页URL，但是没有正确地将这些新获取的HTML内容传递给BeautifulSoup进行解析。

为了解决这个问题，您应该在每次循环内部创建一个新的BeautifulSoup对象，并传入相应分页的HTML内容。以下是修改后的代码：

from pandas import DataFrame as DF
import requests
from bs4 import BeautifulSoup as BS

url = 'https://wh.lianjia.com/ershoufang/wuchang/'
urls = ['https://wh.lianjia.com/ershoufang/wuchang/pg{}'
        .format(i) for i in range(1,101)]
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'}

# Create a DataFrame to store the data
house_data = DF(columns=['标题','小区','地区','户型','面积','朝向','装修情况','楼层','楼型','总价','单价'])

# Iterate through the URLs and scrape the data
for url in urls:
    # Get the HTML content for each URL
    response = requests.get(url, headers=headers)
    
    # Parse the HTML content with BeautifulSoup
    bs_house = BS(response.text, 'html.parser')

    # Scrape the data from the current page
    title = bs_house.findAll('div', {'class': 'title'})
    position_info = bs_house.findAll('div', {'class': 'positionInfo'})
    house_info = bs_house.findAll('div', {'class': 'houseInfo'})
    total_price = bs_house.findAll('div', {'class': 'totalPrice totalPrice2'})
    unit_price = bs_house.findAll('div', {'class': 'unitPrice'})

    # Process the data and append it to the DataFrame
    for i, j, k, a, b in zip(title, position_info, house_info, total_price, unit_price):
        data = {
            '标题': i.text.strip(),
            '小区': j.text.split('-')[0].strip(),
            '地区': j.text.split('-')[1].strip(),
            '户型': k.text.split('|')[0].strip(),
            '面积': k.text.split('|')[1].strip(),
            '朝向': k.text.split('|')[2].strip(),
            '装修情况': k.text.split('|')[3].strip(),
            '楼层': k.text.split('|')[4].strip(),
            '楼型': k.text.split('|')[5].strip(),
            '总价': a.text.strip(),
            '单价': b.text.strip()
        }
        house_data = house_data.append(data, ignore_index=True)

# Save the DataFrame to an Excel file
house_data.to_excel(r'E:\secondhandhouse\wuchang_secondhand_house.xlsx')

这段修改后的代码会在每次循环内分别解析每个分页的HTML内容，确保不会反复抓取同一个页面。这样就可以正确地从所有分页中提取数据并存储到Excel文件中。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(4条)

报告相同问题？

关注问题

python为啥爬取数据会有重复_使用python爬取B站千万级数据
2020-12-05 21:18

weixin_39643336的博客 θɑ:n])，是一种面向对象、直译式电脑编程语言，也是一种功能强大的通用型语言，已经具有近二十年的发展历史，成熟且稳定。它包含了一组完善而且容易理解的标准库，能够轻松完成很多常见的任务。它的语法非常简捷和...
Python爬取网址中多个页面的信息
2020-09-23 14:25

Python 学习者的博客本次项目是爬取所有信息，根据第一步中的html语句，我们有两种爬取后续页面信息的方法：方法一：循环访问本页面中的“下一页”链接直至该标签为空即 ''' 遇到问题没人解答？小编创建了一个Python学习交流QQ群：...
有哪些网站用爬虫爬取能得到很有价值的数据？
2019-05-05 17:47

BC_COM的博客 1、微信好友的爬虫，了解一下你的好友全国分布，男女比例，听起来似乎是一个不错的想法，当然你还可以识别一下你的好友有多少人是用自己照片作为头像的，详细的内容可以点击这里：Python对微信好友进行简单统计分析 ...
踩坑的Python爬虫：新手如何在一个月内学会爬取大规模数据？
2020-04-26 21:34

学术严谨的博客如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。利用爬虫我们可以获取...
知乎热议：为什么python荣登编程语言第一
2022-02-19 22:20

网络安全工程师教学的博客有个权威的语言排名网站，可以看到主流的编程语言是哪些！ 2022年2月数据(https://www.tiobe.com/tiobe-index/ )，python已经荣升编程类语言使用排行榜第一名！ python的就业范围广 Python 就业方向：网络爬虫：...
python编程是啥-python编程语言是什么？它能做什么？
2020-10-28 22:22

编程大乐趣的博客 Python是一种全栈的开发语言，你如果能学好Python，前端，后端，测试，大数据分析，爬虫等这些工作你都能胜任。当下Python有多火我不再赘述，,Python有哪些作用呢？就目前Python发展而言，Python主要有以下五大主要...
python爬取网页有乱码怎么解决_Python抓取网页乱码的原因及解决方法
2020-11-24 11:02

weixin_39531834的博客本篇文章给大家带来的内容是关于Python抓取网页乱码的原因及解决方法，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。在用 python2 抓取网页的时候，经常会遇到抓下来的内容显示出来是乱码。发生...
编程入门选什么语言好？C 语言还是Python ？为你解析
2020-10-19 17:01

C语言进阶之路的博客前面我分享过计算机行业已经成了学校选择排名第一，...第一门编程语言选什么好？这里给大家推荐从 C 语言入门，或者从 Python 入门。那先学哪个好呢？从百度搜索结果也能看到有多少人在纠结着这个问题。这里又得分情
为什么我不推荐任何人用C语言作为编程启蒙第一课？
2023-11-29 07:17

程序员小肖的博客为什么我会说：不推荐任何人用C语言作为编程启蒙第一课？这里有很多同学要站出来说了：“龙叔，我看你是干这行干昏了，人家计算机专业第一课不都是从C语言开始学起么？” 诚然，作为当今众多语言的“爸爸”C语言在...
Python爬取近十年编程语言热度数据并可视化可视化
2020-11-04 08:18

IT农民工1的博客公众号后台回复“图书“，了解更多号主新书内容作者：叶庭云来源：早起Python本文介绍如何利用requests+正则表达式爬取TIOBE编程语言热度数据，并使用????openpyx...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月5日

为啥总是反复爬取第一个页面，有没有人能解决一下？

5条回答 默认 最新

问题事件

5条回答默认最新