请问为什么当我试图储存爬到的多个页面的数据时，只能保存最后一页的数据

import pandas as pd
import re
import requests
from requests import RequestException
from bs4 import BeautifulSoup

def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
for i in range(2,5):
url = "https://bj.lianjia.com/xiaoqu/pg" + str(i) +"/?from=rec"
print(url)
html = getHTMLText(url)
pattern = re.compile('

.*?(.*?).*?

(.*?)', re.S)
items = re.findall(pattern, html)
print(items)
name = []
price = []
info = []
for item in items:
print(item)
name.append(item[0])
name
price.append(item[1])
info = list(zip(name,price))
headers = ['小区', '价格']
filen_name = 'C:\Users\86157\Desktop\1.csv'
data3 = pd.DataFrame(columns = headers,data = info)
data3.to_csv(file_name, encoding='utf_8_sig')
pd.read_csv(file_name)
这是我写的代码

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

7*24 工作者 2020-01-12 18:54

关注

我把你写的爬虫代码给简单改了下，用正则匹配你这个写的有问题，后期需要加强下正则学习，我用lxml解析的源代码，因为你写的是同步执行的，所以我也是同步执行的，没有改成异步的，这样爬虫用异步方式是最好的

#-*- coding:utf-8 -*-

import pandas as pd
import requests
from lxml import etree

def getHTMLText(url):
    Headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
    try:
        r = requests.get(url, timeout=30,headers=Headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.content.decode('utf-8')
    except:
        return ""

if __name__ == '__main__':
    names = []
    prices = []
    info = []
    for i in range(2,5):
        url = "https://bj.lianjia.com/xiaoqu/pg" + str(i) +"/?from=rec"
        print(url)
        html = getHTMLText(url)
        if html:
            datas = etree.HTML(html)
            name = datas.xpath("//div[@class='info']/div[@class='title']/a/text()")
            price = datas.xpath("//div[@class='totalPrice']/span/text()")
            names.extend(name)
            prices.extend(price)

    info = list(zip(names,prices))
    headers = ['小区', '价格']
    filen_name = '1.csv'
    data3 = pd.DataFrame(columns = headers,data = info)
    data3.to_csv(filen_name, encoding='utf-8')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

请问为什么当我试图储存爬到的多个页面的数据时，只能保存最后一页的数据 python
2020-01-11 23:17

回答 1 已采纳我把你写的爬虫代码给简单改了下，用正则匹配你这个写的有问题，后期需要加强下正则学习，我用lxml解析的源代码，因为你写的是同步执行的，所以我也是同步执行的，没有改成异步的，这样爬虫用异步方式是最好的
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
爬虫爬出的数据，print输出可以全部输出，但是写入CSV文件时只能写最后一行 python 爬虫
2022-02-22 08:10

回答 3 已采纳 # -*- coding:utf-8 -*- import requests import csv,re url1 = 'http://category.dangdang.com/' url2
python数据采集爬虫_python爬虫数据采集
2021-01-11 22:58

Zauber皇的博客大学期间，也进行了一番深入学习，毕业后也曾试图把python作为自己的职业方向，虽然没有如愿成为一名python工程师，但掌握了python，也让我现如今的工作开展和职业发展更加得心应手。这篇文章主要与大家分享一下自己...
python爬虫代码运行不报错，但是保存到CSV的数据为空，是哪里出了问题 python
2022-08-09 16:38

回答 8 已采纳 respone.text获取的json数据格式有问题,用 json.loads(respone.text)解析出错另外写csv文件的代码要放到for循环外面,所有数据获取之后再一起写入 cit
我想问一下为什么我这个程序只能爬到第一页的数据呀，怎么改才能抓取全部呢？ python
2022-04-15 16:40

回答 1 已采纳这个时候你就要通过自己的观察，页面怎么跳到下一页，我看着你这个，url最后有一个=1估计就是指的第一页，那就=2就是第2页，做一个循环然后动态改变=n，然后不就可以想爬几页，爬几页，这只是假设，你要去
数据存储为什么只能保存最后一条 python
2023-03-30 17:31

回答 2 已采纳当你使用线程池下载数据时，线程池中的线程可能会同时向同一个Excel文件写入数据，这可能会导致写入数据的冲突，从而只保存最后一条数据。 ```python import openpyxl from
python爬虫数据采集
2020-10-25 16:37

菜鸟阿都的博客大学期间，也进行了一番深入学习，毕业后也曾试图把python作为自己的职业方向，虽然没有如愿成为一名python工程师，但掌握了python，也让我现如今的工作开展和职业发展更加得心应手。这篇文章主要与大家分享一下自己...
python爬虫B站评论数，为什么有一个数据爬不下来 python 有问必答爬虫
2021-11-06 10:39

回答 2 已采纳你用request的话，要看network的响应内容，不是element的。如图
python简单爬虫正常运行遍历，没有报错，但最后csv文件为什么只保存了一条信息 python
2019-07-29 00:53

回答 1 已采纳 with open(r'C:\Users\Administrator\Desktop\python\豆瓣电影分类前100.csv', 'w', newline='', encoding='utf8')
python 批量计算的数据 print（）到console的数据如何全部保存到指定路径文档，目前只能保存最后一个文件的 big data python
2021-10-27 21:24

回答 2 已采纳 f = open(r"文件路径", 'wt') print("内容", file=f)
python爬取高德poi数据_python3爬虫-高德地图POI数据的爬取
2020-12-23 20:11

百步穿型Mr.Q的博客大致流程：爬取北京市边界坐标坐标映射到网格，得到北京市的边界网格广度优先遍历，将整个北京市网格化对每一个网格进行poi获取，当获取的数量过多时，对网格再次划分，递归查询第一步，爬取北京市边界坐标这里可以...
怎样在Python csv文件中每24行提取一次数据并保存到一个单独的csv文件中？ python 有问必答
2022-04-08 03:39

回答 4 已采纳不需要每隔24行数据单独保存到一个文件，只需要用列表切片每隔24行切成为一个列表,把切片出来的列表作为一个元素添加到一个li2列表中.用random.shuffle(li2)随机打乱li2,再合并写到
python爬大学生就业数据_小猪的Python学习之旅 —— 16.再尝Python数据分析：采集拉勾网数据分析Android就业行情...
2020-11-29 01:58

weixin_39722375的博客引言：在写完上一篇《浅尝Python数据分析：分析2018政府工作报告中的高频词》，一直都处于一种亢奋的状态，满脑子都想着数据分析，膜一下当然很开心，更重要的是感受到了Python数据分析的好玩，迫不及待地想写个新的...
python-大数据分析-基于大数据的QQ音乐数据分析系统设计与实现
2023-10-12 14:30

跟着AI学编程的博客【python-大数据分析-毕业设计】基于大数据的QQ音乐数据分析系统设计与实现讲解+源码+论文+ppt 详细咨询V：chen177396或yyhh1234nn
没有解决我的问题, 去提问

悬赏问题

¥15 uniapp uview http 如何实现统一的请求异常信息提示？
¥15 有了解d3和topogram.js库的吗？有偿请教
¥100 任意维数的K均值聚类
¥15 stamps做sbas-insar，时序沉降图怎么画
¥15 买了个传感器，根据商家发的代码和步骤使用但是代码报错了不会改，有没有人可以看看
¥15 关于#Java#的问题，如何解决？
¥15 加热介质是液体，换热器壳侧导热系数和总的导热系数怎么算
¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
¥15 cmd cl 0x000007b
¥20 BAPI_PR_CHANGE how to add account assignment information for service line

码龄粉丝数原力等级 --

请问为什么当我试图储存爬到的多个页面的数据时，只能保存最后一页的数据

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

请问为什么当我试图储存爬到的多个页面的数据时，只能保存最后一页的数据

1条回答 默认 最新

悬赏问题

1条回答默认最新