学习网络爬虫时遇到的问题，求解

#爬取京东上鞋子的图片，代码如下:

import urllib.request
import re
def craw(url,page):
    html1=urllib.request.urlopen(url).read().decode('utf-8','ignore')
    html1=str(html1)
    pat1='<div id="J_goodsList"(.*?)<ul class="clearfix" data-x="ab">'
    result1=re.compile(pat1).findall(html1)
    result1=result1[0]
    pat2='<img class="err-product" data-img="1" data-img="1" src="//(.*?).jpg"'
    imagelist=re.compile(pat2).findall(result1)
    x=1
    for imageurl in imagelist:
        imagename='E:/PyCharm/python_pycharm/爬取数据/img/'+str(page)+str(x)+'.jpg'
        imageurl='http://'+imageurl
        try:
            urllib.request.urlretrieve(imageurl,filename=imagename)
        except urllib.error.URLError as e:
            if hasattr(e,'code'):
                x+=1
            if hasattr(e,'reason'):
                x+=1
        x+=1
for i in range(1,32):
    url='http://coll.jd.com/list.html?sub=51044&page='+str(i)
    craw(url,i)

运行后，报错：

========== RESTART: E:\PyCharm\python_pycharm\爬取数据\IDLE代码\shoes.py ==========
Traceback (most recent call last):
  File "E:\PyCharm\python_pycharm\爬取数据\IDLE代码\shoes.py", line 25, in <module>
    craw(url,i)
  File "E:\PyCharm\python_pycharm\爬取数据\IDLE代码\shoes.py", line 8, in craw
    result1=result1[0]
IndexError: list index out of range
>>>

求大神解答，谢谢！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-03-11 23:54
关注
抓包看下，你的连接中断了，可能的原因有：

对方发现你是爬虫，或者发现你访问频繁。所以限制了
你的地址或者请求数据有问题
网站被政府和谐了。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

人工智能开发语言 python,python人工智能编程教程
2022-10-10 15:18

快乐的小肥熊的博客 Python作为人工智能首选编程语言，随着人工智能时代的到来，Python开发效率非常高，Python有非常强大的第三方库，基本上你想通过计算机实现任何功能，Python官方库里都有相应的模块进行支持，直接下载调用后，在基础...
如何利用网络爬虫进行大规模LLM数据收集
2025-04-25 17:15

智泊AI—大模型小王的博客大语言模型的 “智慧” 很大程度上依赖于其训练数据的质量和数量。想要打造一个能够理解真实世界的模型，就...本文将深入探讨如何利用网络爬虫收集大规模、适用于 AI 训练的数据，为人工智能模型的训练筑牢坚实基础。
【网络安全】CTF逆向Reverse入门
2025-04-22 10:01

爱吃小石榴16的博客 C语言推荐《C primer plus》书有点厚，但是不难理解，作为入门的语言学习资料，很不错。 python也要学点，这里就不推荐书了，因为博主也没有系统学过hh。 win32编程，我个人认为做题的时候用到的时候再查就好，多...
如何制作一个AI代理网络爬虫（适合初学者的教程）
2025-12-02 17:17

code tsunami的博客通过这个适合初学者的教程，学习如何从零开始创建AI智能体网络爬虫。了解核心组件、代码示例以及如何绕过反机器人措施（如验证码）以确保可靠的数据采集。
如何学习abaqus的python脚本
2024-09-26 15:55

xiamu_CDA的博客 Abaqus作为一款在业界享有盛誉的多物理场有限元分析软件，在结构力学、流体动力...然而，仅仅掌握软件界面操作是远远不够的，要想在复杂工程问题求解中更加游刃有余，学会使用Python脚本编写Abaqus自动化脚本才是王道。
Python深度学习：从入门到精通
2025-07-21 15:39

莲华君的博客本书将带您从最基础的数学原理出发，亲手搭建神经网络，驾驭Transformer等前沿模型，最终将智慧转化为现实世界的价值。请放下畏惧，保持好奇。这不仅是一次知识的学习，更是一场思维的远行。来，随我一起，开启这趟...
十分钟学习自然语言处理概述
2016-09-30 07:32

架构师研究会的博客摘要：近来自然语言处理行业发展朝气蓬勃，市场应用广泛。...（本文原创，转载注明出处：十分钟学习自然语言处理概述 )1 什么是文本挖掘？文本挖掘是信息挖掘的一个研究分支，用于基于文本信息的知识...
爬虫教程（ 6 ） --- 爬虫进阶、扩展
2022-07-11 07:35

「已注销」的博客 1. 先看一个最简单的爬虫。 import requests url = "http://www.cricode.com" r = requests.get(url) print(r.text) 2. 一个正常的爬虫程序上面那个最简单的爬虫，是一个不完整的残疾的爬虫。因为爬虫程序通常...
量子机器学习在时间序列预测中的应用
2026-01-03 15:51

毕业论文研究院的博客量子机器学习是量子计算与机器学习交叉领域的研究热点，它结合了量子计算的优势和机器学习的算法，旨在利用量子计算机的并行计算能力来提高机器学习算法的效率和性能。以下是对量子机器学习的基本概念、原理及其在...
数据科学与机器学习问题解析
2025-09-15 02:50

q9w8e7r6t5的博客本文涵盖数据科学和机器学习领域的多个核心问题，包括数据来源、民意调查方法、生存预测、编程语言比较、模型评估、异常值处理、数据清洗、缺失值处理、网页抓取、可视化实践、统计测试、过拟合控制、贝叶斯定理、...
没有解决我的问题, 去提问

学习网络爬虫时遇到的问题，求解

2条回答 默认 最新

2条回答默认最新