selenium 爬取动态加载网站中途停止，爬到第10个信息以后不能再继续

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions
import time

driver = webdriver.Chrome()
driver.maximize_window()

def crawlHouseDetailForInvoke():
driver.find_element_by_class_name("collapsible-header").click()# price/tax history
time.sleep(5)
table = driver.find_element_by_xpath('//div[@id = "wrapper"]/div/div/div/div/div[@id = "detail-container-column"]/div/div/main/div/div/div/div/div/section[3]/div/div/div/table')
print(table.text)

def crawlRegion(url):
driver.get(url)
div_parent = driver.find_element_by_id('list-results')
a_link = div_parent.find_elements_by_xpath('//div[@id = "search-results"]/ul/li/article/div/a')
print("information in this page:%d" % len(a_link))
for i in range(len(a_link)):
try:
print(i)
print(a_link[i].get_attribute("href"))
a_link[i].click()
time.sleep(8)
crawlHouseDetailForInvoke()
except Exception as e:
continue
finally:
driver.back()

if name == "__main__":

regionUrl = "https://www.zillow.com/homes/recently_sold/Culver-City-CA/house,condo,apartment_duplex,townhouse_type/51617_rid/12m_days/globalrelevanceex_sort/34.05529,-118.33211,33.956531,-118.485919_rect/12_zm/"
print("crawler is started...")

crawlRegion(regionUrl)

driver.close()
driver.quit()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
wujianqinjian 2018-11-24 08:09
关注
没有看到你用代理IP啊，网站几乎都会做反爬处理，你同一个IP不停爬，肯定会被服务器拒绝的！可以先学习下如何在代码中使用代理，实在搞不定代理的话，可以再加我QQ说明具体问题：775662401！

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
selenium爬取数据异常 python selenium 爬虫
2022-05-03 21:12

回答 1 已采纳数据在哪就在哪页爬，页面不显示的一般元素没有加载，你自然取不到啊
selenium爬虫遇到VIP页面以及爬取次数限制时该怎么办 python selenium 爬虫
2021-10-24 12:56

回答 1 已采纳遇到VIP页面，我想你应该需要一个VIP会员，并以登入破解。限制爬取次数上，可以用proxy轮转或尽量拉长sleep时间或多办几个账号以上浅见
Python爬虫 selenium自动化利用搜狗搜索爬取微信公众号文章信息
2020-09-04 12:03

叶庭云的博客 selenium自动化，利用搜狗搜索爬取微信公众号文章信息，在搜狗里搜索任意关键字，爬取得到的全部文章信息(包括标题、日期、链接)，并保存到Excel。
【python】selenium爬取含企查查中文的网址报405问题 chrome python selenium
2021-09-23 10:04

回答 2 已采纳先进首页，再跳转
使用selenium爬取数据时，数据没展开提取不到怎么办？ python
2021-03-07 15:54

回答 2 已采纳两个方法一个是找到后端接口，直接请求后端接口另一个是操作selenium点击加载
selenium爬取房源网站 python selenium 有问必答
2022-05-10 21:17

回答 3 已采纳请提供报错信息，从报错行查找原因。
python爬虫（十七）12306案例
2021-09-13 08:58

hwwaizs的博客通过案例复习selenium的知识点，通过selenium抓取Ajax数据，使用Ajax技术，打开页面的时候不会完全显示内容，通过按钮操作后网页不会全部更新，实现部分界面的增量数据更新。只更新数据不刷新整个界面。需求人工...
selenium爬取淘宝翻页不成功，有大佬帮下忙吗 python
2021-04-16 18:12

回答 4 已采纳 data中不是循环了两次吗？所以最多爬取两页的数据。有一个问题， browser.get(f"https://s.taobao.com/search?q={value}&s={b}") b +=
python3+selenium如何获取页面的加载时间或者时间戳 python selenium 测试工具
2022-05-23 09:55

回答 1 已采纳 from datetime import datetime ##获取页面加载时间 a = datetime.now() url='http://192.168.1.199/' x=webdrive
python爬虫selenium点击按钮 python selenium 爬虫
2022-10-21 12:35

回答 2 已采纳可以看下xpath语法，还有个插件（xPath Finder）在firefox浏览器里可以一键定位到元素并复制xpath路径，如果插件给出的xpath路径定位不到，可以尝试自己写相对路径
爬虫学习笔记：Selenium爬取淘宝美食附完整代码
2018-07-06 14:22

松鼠先森的博客使用selenium来模拟浏览器操作，抓取淘宝商品信息，即可做到可见即可爬。1.准备工作用selenium抓取淘宝商品，并用pyquery解析得到商品的图片，名称，价格，购买人数，店铺名称和店铺所在位置。即需要安装...
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python + selenium实现巨潮资讯网指定范围年报下载
2023-06-17 20:10

千枝实的博客使用python+selenium的方法实现巨潮资讯网制定范围的年报爬取
[Python从零到壹] 十四.机器学习之分类算法五万字总结全网首发（决策树、KNN、SVM、分类对比实验）
2021-07-09 14:24

Eastmount的博客分类模型类似于人类学习的方式，通过对历史数据或训练集的学习得到一个目标函数，再用该目标函数预测新数据集的未知属性。本章主要讲述分类算法基础概念，并结合决策树、KNN、SVM分类算法案例分析各类数据集，从而让...
没有解决我的问题, 去提问

悬赏问题

¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿
¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊
¥15 stable diffusion
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘

selenium 爬取动态加载网站中途停止，爬到第10个信息以后不能再继续

1条回答 默认 最新

悬赏问题

1条回答默认最新