重复爬取同页的第一个内容


from lxml import etree
import requests
import csv
f=open(r'C:\Users\86182\Desktop\jinan.csv','wt',newline='',encoding='utf-8')
writer=csv.writer(f)
writer.writerow(('name','price','address'))
urls=['https://jn.newhouse.fang.com/house/asp/trans/buynewhouse/default.htm?page={}&pricesort='.format(str(i)) for i in range(1,3)]
headers={
    'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'
}
for url in urls:
    html=requests.get(url,headers=headers)
    selector=etree.HTML(html.text)
    infos=selector.xpath('//div[@class="imgInfo"]')
    for info in infos:
        name=info.xpath('/html/body/div[4]/div[1]/div[2]/ul/li/div[1]/div/p/a/text()')[0]
        price=info.xpath('/html/body/div[4]/div[1]/div[2]/ul/li/div[2]/div[1]/span/text()')[0]
        address=info.xpath('/html/body/div[4]/div[1]/div[2]/ul/li/div[2]/p[2]/a/text()')[0]
        #time=info.xpath('')[0]
        writer.writerow((name,price,address))
f.close()

但在更换网址后就没有问题

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

Harley~G 2021-12-21 10:08

关注


for url in urls:
    html = requests.get(url, headers=headers)
    selector = etree.HTML(html.text)
    infos = selector.xpath('//div[@class="imgInfo"]')
    num = 0
    for info in infos:
        name = info.xpath('/html/body/div[4]/div[1]/div[2]/ul/li/div[1]/div/p/a/text()')[num]
        price = info.xpath('/html/body/div[4]/div[1]/div[2]/ul/li/div[2]/div[1]/span/text()')[num]
        address = info.xpath('/html/body/div[4]/div[1]/div[2]/ul/li/div[2]/p[2]/a/text()')[num]
        num += 1

加一个变量

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

重复爬取同页的第一个内容 python 爬虫
2021-12-20 22:38

回答 1 已采纳 for url in urls: html = requests.get(url, headers=headers) selector = etree.HTML(html.text)
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
使用requests 获取博客园每页内容时，为什么一直重复爬取第一页内容？感谢大佬 python 有问必答
2021-04-03 09:45

回答 4 已采纳问题出在urls构造上，第一页和后续网页的地址是不一样的，将这行改为：urls = [f'https://cnblogs.com/#p{page}' if page == 1 else f'https
为什么Python爬虫一直重复爬取第一页的内容
2020-09-01 13:00

Lemon_1305的博客 import requests ...for k in range(1,20): url='https://www.duitang.com/search/?kw=%E6%AD%A3%E5%A4%AA&type=feed'+'#!s-p'+str(k) page=requests.Session().get(url) tree=html.fromstring(p.
Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
用selenium爬取淘宝多页数据时，只是重复打印一页 python
2021-04-06 22:14

回答 5 已采纳如果没看错的话，您在data函数中做了3次循环，是想爬前三页的数据吗？如果是的话，问题就出在soup上，您的soup是第一页的内容，不管循环多少次，都是在对第一页进行操作
python爬虫存入excel却只重复第一行信息 python 爬虫
2022-09-15 21:25

回答 1 已采纳 import time import xlwt as xlwt from selenium import webdriver from selenium.webdriver.chrome.servi
python爬取内容重复输出_python3爬虫重复返回第一页
2020-11-24 07:58

weixin_39781143的博客简单地用requests模块写出了文件，然而返回结果全是i春秋的第一页的课程名称。请问是我代码问题还是i春秋的防爬机制比较强？希望大佬们能给点指导，代码我就贴下面了。import requestsimport jsonurl_begining = '...
python爬取网站被识别如何解决 python
2021-05-28 19:50

回答 3 已采纳结合 selenium 库来操作。selenium 取到的 cookie 保存成文件，然后你这边 requests 请求的时候，去这个文件里读取最新的 token 值。
请问为什么当我试图储存爬到的多个页面的数据时，只能保存最后一页的数据 python
2020-01-11 23:17

回答 1 已采纳我把你写的爬虫代码给简单改了下，用正则匹配你这个写的有问题，后期需要加强下正则学习，我用lxml解析的源代码，因为你写的是同步执行的，所以我也是同步执行的，没有改成异步的，这样爬虫用异步方式是最好的
运用xpath进行，每次都只能运行出来一个数据 python
2022-08-08 12:11

回答 2 已采纳原因是列表div_tag只有一项, 而变量title, piaofang有很多项。改成这样: import requests from lxml import etree import csv ur
python爬取多个网页内容_Python 爬虫第三篇（循环爬取多个网页）
2020-11-20 21:39

weixin_39803977的博客前两篇文章的Python履带(urllib + regex)和第二篇文章的Python履带(urllib + BeautifulSoup),介绍如何获取网页信息的一个给定的URL和解析它。内容。本文将更进一步并获取和解析给定的URL的内容及其相关的URL根据给定...
python3爬虫百度图片，结果只能显示60张，后面都是重复 python 机器学习
2019-01-07 18:22

回答 1 已采纳 ←如果以下回答对你有帮助，请点击右边的向上箭头及采纳下答案 ``` #coding=utf-8 import re import requests from urllib import
python爬取网页防止重复内容_python解决网站的反爬虫策略总结
2020-11-29 22:20

weixin_39829497的博客本文详细介绍了网站的反爬虫策略，在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。从功能上来讲，爬虫一般分为...第三种一些应用ajax的网站会采用，这样增大了爬取的难度（防止静态爬虫使用ajax技...
python爬取内容重复输出_python爬取两个excel表里的相同数据并匹配输出
2020-11-24 07:58

weixin_39903872的博客 "b", "c", "a", "b", "c", "a"] # # 获取第一个"a"的下标 # index_one = l.index("a") # # 从第一个"a"的下一个位置开始查找, 所以加1 # print(l.index("a", index_one + 1)) #return all_info inpath = ("111.xlsx...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月20日

悬赏问题

¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改

重复爬取同页的第一个内容

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新