重复爬取同页的第一个内容


from lxml import etree
import requests
import csv
f=open(r'C:\Users\86182\Desktop\jinan.csv','wt',newline='',encoding='utf-8')
writer=csv.writer(f)
writer.writerow(('name','price','address'))
urls=['https://jn.newhouse.fang.com/house/asp/trans/buynewhouse/default.htm?page={}&pricesort='.format(str(i)) for i in range(1,3)]
headers={
    'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'
}
for url in urls:
    html=requests.get(url,headers=headers)
    selector=etree.HTML(html.text)
    infos=selector.xpath('//div[@class="imgInfo"]')
    for info in infos:
        name=info.xpath('/html/body/div[4]/div[1]/div[2]/ul/li/div[1]/div/p/a/text()')[0]
        price=info.xpath('/html/body/div[4]/div[1]/div[2]/ul/li/div[2]/div[1]/span/text()')[0]
        address=info.xpath('/html/body/div[4]/div[1]/div[2]/ul/li/div[2]/p[2]/a/text()')[0]
        #time=info.xpath('')[0]
        writer.writerow((name,price,address))
f.close()

但在更换网址后就没有问题

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

Harley~G 2021-12-21 10:08

关注


for url in urls:
    html = requests.get(url, headers=headers)
    selector = etree.HTML(html.text)
    infos = selector.xpath('//div[@class="imgInfo"]')
    num = 0
    for info in infos:
        name = info.xpath('/html/body/div[4]/div[1]/div[2]/ul/li/div[1]/div/p/a/text()')[num]
        price = info.xpath('/html/body/div[4]/div[1]/div[2]/ul/li/div[2]/div[1]/span/text()')[num]
        address = info.xpath('/html/body/div[4]/div[1]/div[2]/ul/li/div[2]/p[2]/a/text()')[num]
        num += 1

加一个变量

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

为什么Python爬虫一直重复爬取第一页的内容
2020-09-01 13:00

Lemon_1305的博客 import requests ...for k in range(1,20): url='https://www.duitang.com/search/?kw=%E6%AD%A3%E5%A4%AA&type=feed'+'#!s-p'+str(k) page=requests.Session().get(url) tree=html.fromstring(p.
python爬取内容重复输出_python3爬虫重复返回第一页
2020-11-24 07:58

weixin_39781143的博客简单地用requests模块写出了文件，然而返回结果全是i春秋的第一页的课程名称。请问是我代码问题还是i春秋的防爬机制比较强？希望大佬们能给点指导，代码我就贴下面了。import requestsimport jsonurl_begining = '...
python爬取换页_Python爬虫翻页只爬取了第一页内容？
2020-11-23 05:02

weixin_39938312的博客写这种类型的翻页代码要注意书写... 第一反应应该是测试一下第一页能不能套用第二页的格式, 一般情况下,翻页url格式都是一样的http://renfans.com/explore/sort_type-new__day-0__page-1http://renfans.com/explore/...
python爬取多个网页内容_Python 爬虫第三篇（循环爬取多个网页）
2020-11-20 21:39

weixin_39803977的博客前两篇文章的Python履带(urllib + regex)和第二篇文章的Python履带(urllib + BeautifulSoup),介绍如何获取网页信息的一个给定的URL和解析它。内容。本文将更进一步并获取和解析给定的URL的内容及其相关的URL根据给定...
python爬取网页防止重复内容_python解决网站的反爬虫策略总结
2020-11-29 22:20

weixin_39829497的博客本文详细介绍了网站的反爬虫策略，在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。从功能上来讲，爬虫一般分为...第三种一些应用ajax的网站会采用，这样增大了爬取的难度（防止静态爬虫使用ajax技...
爬取数据是第一页的重复数据,该怎么解决
2024-06-05 11:33

asd234fgj的博客【代码】爬取数据是第一页的重复数据,该怎么解决。
python爬取所有页url_Python 如何爬取相同url下，多个页面的链接内容
2020-12-05 02:37

weixin_39926739的博客据说,python是方便抓取网页数据。今天让我们试试。它有多方便的对于python来抓取数据。介绍抓取数据,基本上得到这个网页的源代码通过网页的URL,并过滤出所需的信息根据源代码。准备IDE: pyCharm库:请求,\u2026进口...
python爬取内容重复输出_python - scrapy 如何高效的避免采集到重复数据?
2020-11-24 07:58

weixin_39567013的博客不过现在要做的一个是,在爬取的时候,需要先判断这个url有没有存在数据库,如果存在就不插入了.我目前想到的思路是,每次采集的时候,都做一下判断: ( 查询一下就数据库 )但是这样感觉很低效.而且如果数据库里面有上百万...
python爬虫爬取多个页面_python网络爬虫之使用scrapy自动爬取多个网页
2020-11-24 10:20

weixin_39542742的博客前面介绍的scrapy爬虫只能爬取单个网页。如果我们想爬取多个网页。比如网上的小说该如何如何操作呢。比如下面的这样的结构。...不同的是第一章只有2个元素，从二章开始就有3个元素。因此我们可以...
python爬取内容重复输出_python爬取两个excel表里的相同数据并匹配输出
2020-11-24 07:58

weixin_39903872的博客 "b", "c", "a", "b", "c", "a"] # # 获取第一个"a"的下标 # index_one = l.index("a") # # 从第一个"a"的下一个位置开始查找, 所以加1 # print(l.index("a", index_one + 1)) #return all_info inpath = ("111.xlsx...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月20日

重复爬取同页的第一个内容

1条回答 默认 最新

问题事件

1条回答默认最新