Python 爬虫 index溢出

import urllib2
import re
from xlsxwriter.workbook import Workbook
from io import BytesIO
import json

workbook = Workbook('images.xlsx')
print "FETCHING YHD ..."
u = urllib2.urlopen('http://www.yhd.com/')
data = u.read()

ol_tag = re.findall(r'

.*?', data, flags = re.DOTALL)
li_tag = re.findall(r'', ol_tag[0], flags = re.DOTALL)

yhd_link = []
for item in li_tag:
link = re.findall(r'(?<=wi=").*?(?=")', item)
yhd_link += link

yhd_href_link = []
for item in li_tag:
link = re.findall(r'(?<=href=").*?(?=")', item)
yhd_href_link += link

worksheet = workbook.add_worksheet('yhd')

print "Total: " + str(len(yhd_link))
for i in range(len(yhd_link)):
print "yhd => Downloading Picture " + str(i+1)
image_data = BytesIO(urllib2.urlopen(yhd_link[i]).read())
if i % 4 == 0:
worksheet.set_row(i, 240)
else:
worksheet.set_row(i, 120)
worksheet.insert_image('A' + str(i+1), yhd_link[i], {'image_data': image_data, 'url': yhd_href_link[i]})

print "COMPLETE YHD ..."
workbook.close()

Traceback (most recent call last):
File "C:\Python27\project\banner\banneryhd.py", line 16, in
li_tag = re.findall(r'', ol_tag[0], flags = re.DOTALL)
IndexError: list index out of range

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
传说中的虫虫 2014-12-03 03:35
关注
ol_tag = re.findall(r'.*?', data, flags = re.DOTALL)

这里如果没有找到结果下一句话里的ol_tag[0] 就会导致索引错误，所以你应该加保护语句，没找到就给出相应的提示

li_tag = re.findall(r'', ol_tag[0], flags = re.DOTALL)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python 爬虫 index溢出 python 爬虫
2014-11-27 09:10

回答 1 已采纳 ol_tag = re.findall(r'.*?', data, flags = re.DOTALL) 这里如果没有找到结果下一句话里的ol_tag[0] 就会导致索引错误，所以你应该加保护
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫selenium点击按钮 python selenium 爬虫
2022-10-21 12:35

回答 2 已采纳可以看下xpath语法，还有个插件（xPath Finder）在firefox浏览器里可以一键定位到元素并复制xpath路径，如果插件给出的xpath路径定位不到，可以尝试自己写相对路径
搞定这套Python爬虫面试题，面试轻轻松松！
2022-09-20 14:30

、烟雨楼的博客新创建的对象都会分配在年轻代，年轻代链表的总数达到上限时，Python垃圾收集机制就会被触发，把那些可以被回收的对象回收掉，而那些不会回收的对象就会被移到中年代去，依此类推，老年代中的对象是存活时间最久的...
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫的图片爬取 python 爬虫
2021-08-30 12:26

回答 2 已采纳按照下图这样就可以了
python爬虫基础笔试题_Python爬虫面试题
2020-12-14 12:16

weixin_39710951的博客 e、你必须管理内存（变量的创建和销毁你必须要负责） f、变量大小可以用realloc( )调整 3、爬虫框架scrapy的工作流程　a、spider解析下载器下下来的response，返回item或是links　b、item或者link经过...
python爬虫加载js文件错误 python 爬虫
2021-11-20 10:30

回答 1 已采纳你应该把js发出来的把js放到浏览器控制台执行以下看看是否有问题，如果正常运行则说明你本地的环境不符，建议安装nodejs再尝试爬虫逆向社区-爬虫逆向论坛-CSD
python爬虫，账号反爬怎么处理 python 爬虫
2021-09-08 19:39

回答 3 已采纳目前来看，账号反爬没有什么太好的应对措施。一旦你的账号确定被反爬了，就只能更换账号了，或者和网站客服沟通。对于账号反爬网站，一般来说，就是ip代理池和账号随机混用，还需要保证ip的质量，地域差异不要太
python爬虫问题 python 爬虫
2022-10-09 11:41

回答 2 已采纳
Python爬虫-使用Jupyter爬虫
2021-06-25 20:41

18岁攻城师皮蛋的博客 Python 使用Jupyter工具爬取环境配置： Window10、Python3.8、Jupyter
python爬虫位置问题 python 爬虫
2023-03-08 13:31

回答 2 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ如果您想要提取 div class="detail-context"标签下所有的 tr 标签，并进一步提取每个 tr 中的 td 标签内的内容，可以使用以下代码： impo
python爬虫索引超出范围_python爬虫（一）入门常见错误集合
2021-01-14 00:56

张献忠的博客在入门爬虫的时候遇到不少问题，和不是唯一的解决方法的方法，总结整理一下，供大家学习交流。1. syntaxerror: invalid syntax语法错误：无效语法2. syntaxerror: unexpected EOF while parsing语法错误：多了无法...
python-基础分布式爬虫
2022-09-21 15:38

aaaaaaxin的博客 python-基础分布式爬虫，分布式爬虫笔记，BaseManager
没有解决我的问题, 去提问

悬赏问题

¥15 电脑最近经常蓝屏，求大家看看哪的问题
¥60 高价有偿求java辅导。工程量较大，价格你定，联系确定辅导后将采纳你的答案。希望能给出完整详细代码，并能解释回答我关于代码的疑问疑问，代码要求如下，联系我会发文档
¥50 C++五子棋AI程序编写
¥30 求安卓设备利用一个typeC接口，同时实现向pc一边投屏一边上传数据的解决方案。
¥15 SQL Server analysis services 服务安装失败
¥15 基于面向对象的图书馆借阅管理系统
¥15 opencv图像处理，需要四个处理结果图
¥20 centos linux 7.9安装php8.2.18不支持mysqli模块的问题
¥15 stata空间计量LM检验
¥15 关于k8s node节点被释放后如何驱逐节点并添加新节点

Python 爬虫 index溢出

1条回答 默认 最新

悬赏问题

1条回答默认最新