Python 爬虫 index溢出

import urllib2
import re
from xlsxwriter.workbook import Workbook
from io import BytesIO
import json

workbook = Workbook('images.xlsx')
print "FETCHING YHD ..."
u = urllib2.urlopen('http://www.yhd.com/')
data = u.read()

ol_tag = re.findall(r'

.*?', data, flags = re.DOTALL)
li_tag = re.findall(r'', ol_tag[0], flags = re.DOTALL)

yhd_link = []
for item in li_tag:
link = re.findall(r'(?<=wi=").*?(?=")', item)
yhd_link += link

yhd_href_link = []
for item in li_tag:
link = re.findall(r'(?<=href=").*?(?=")', item)
yhd_href_link += link

worksheet = workbook.add_worksheet('yhd')

print "Total: " + str(len(yhd_link))
for i in range(len(yhd_link)):
print "yhd => Downloading Picture " + str(i+1)
image_data = BytesIO(urllib2.urlopen(yhd_link[i]).read())
if i % 4 == 0:
worksheet.set_row(i, 240)
else:
worksheet.set_row(i, 120)
worksheet.insert_image('A' + str(i+1), yhd_link[i], {'image_data': image_data, 'url': yhd_href_link[i]})

print "COMPLETE YHD ..."
workbook.close()

Traceback (most recent call last):
File "C:\Python27\project\banner\banneryhd.py", line 16, in
li_tag = re.findall(r'', ol_tag[0], flags = re.DOTALL)
IndexError: list index out of range

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
传说中的虫虫 2014-12-03 03:35
关注
ol_tag = re.findall(r'.*?', data, flags = re.DOTALL)

这里如果没有找到结果下一句话里的ol_tag[0] 就会导致索引错误，所以你应该加保护语句，没找到就给出相应的提示

li_tag = re.findall(r'', ol_tag[0], flags = re.DOTALL)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python 爬虫 index溢出 python 爬虫
2014-11-27 09:10

回答 1 已采纳 ol_tag = re.findall(r'.*?', data, flags = re.DOTALL) 这里如果没有找到结果下一句话里的ol_tag[0] 就会导致索引错误，所以你应该加保护
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫selenium点击按钮 python selenium 爬虫
2022-10-21 12:35

回答 2 已采纳可以看下xpath语法，还有个插件（xPath Finder）在firefox浏览器里可以一键定位到元素并复制xpath路径，如果插件给出的xpath路径定位不到，可以尝试自己写相对路径
搞定这套Python爬虫面试题，面试轻轻松松！
2022-09-20 14:30

、烟雨楼的博客新创建的对象都会分配在年轻代，年轻代链表的总数达到上限时，Python垃圾收集机制就会被触发，把那些可以被回收的对象回收掉，而那些不会回收的对象就会被移到中年代去，依此类推，老年代中的对象是存活时间最久的...
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫的图片爬取 python 爬虫
2021-08-30 12:26

回答 2 已采纳按照下图这样就可以了
python 位置参数溢出,爬虫遇到栈溢出(stack overflow)的问题
2021-04-26 18:50

邹小兔的博客今天在用python爬虫抓取网页信息的时候，出现了一个关于栈溢出的错误：Fatal Python error: Cannot recover from stack overflow.没有找到正确的解决方案，然后就搜索了跟栈溢出相关的知识并检查了代码，发现了问题...
python爬虫加载js文件错误 python 爬虫
2021-11-20 10:30

回答 1 已采纳你应该把js发出来的把js放到浏览器控制台执行以下看看是否有问题，如果正常运行则说明你本地的环境不符，建议安装nodejs再尝试爬虫逆向社区-爬虫逆向论坛-CSD
python爬虫，账号反爬怎么处理 python 爬虫
2021-09-08 19:39

回答 3 已采纳目前来看，账号反爬没有什么太好的应对措施。一旦你的账号确定被反爬了，就只能更换账号了，或者和网站客服沟通。对于账号反爬网站，一般来说，就是ip代理池和账号随机混用，还需要保证ip的质量，地域差异不要太
python爬虫问题 python 爬虫
2022-10-09 11:41

回答 2 已采纳
python爬虫基础笔试题_Python爬虫面试题
2020-12-14 12:16

weixin_39710951的博客 e、你必须管理内存（变量的创建和销毁你必须要负责） f、变量大小可以用realloc( )调整 3、爬虫框架scrapy的工作流程　a、spider解析下载器下下来的response，返回item或是links　b、item或者link经过...
python爬虫位置问题 python 爬虫
2023-03-08 13:31

回答 2 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ如果您想要提取 div class="detail-context"标签下所有的 tr 标签，并进一步提取每个 tr 中的 td 标签内的内容，可以使用以下代码： impo
Python爬虫-使用Jupyter爬虫
2021-06-25 20:41

18岁攻城师皮蛋的博客 Python 使用Jupyter工具爬取环境配置： Window10、Python3.8、Jupyter
python 内存溢出_python内存溢出
2020-11-29 21:10

weixin_39849127的博客这里整理了一次内存泄漏的问题通常我们写python程序的时候也很少关注内存这个问题（当然可能我的能力还有待提升），可能写c和c++的朋友会更多的考虑这个问题，但是一旦我们的python程序出现了内存泄漏的问题，也将是...
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器