python爬虫抓取机票时出现的问题

我是在校学生，自学了点python，想用爬虫抓取机票价格可以更方便的了解特价票信息，所以在网上找了抓取的一些代码然后自己又改了一些，初步有自己想要的功能：挂在服务器上运行，一旦有特价票，向我的邮箱发信息。但是一直有问题，第一个是运行的时候会出下面这个错误（好像是列表越界）：
Exception in thread Thread-24:
Traceback (most recent call last):
File "/usr/local/python27/lib/python2.7/threading.py", line 551, in __bootstrap_inner
self.run()
File "/usr/local/python27/lib/python2.7/threading.py", line 755, in run
self.function(*self.args, **self.kwargs)
File "SpecialFlightPrice.py", line 72, in task_query_flight
flights=getdate(city, today, enddate)
File "SpecialFlightPrice.py", line 27, in getdate
json_data = re.findall(pattern, price_html)[0]
IndexError: list index out of range

还有一个问题就是我想每天定时对机票信息文件进行清空，但是写的代码却实现不了这个功能，请大神顺便帮我改一改。
先感谢！

下面是源码（我把个人的2个邮箱改成了xxxxxxxx，如果想运行需要把xxxxxxxx改成自己的2个邮箱，还有因为是挂在服务器上运行的，所以需要输入几个参数：出发地点，日期，日期后几天的机票）：

-- coding: utf-8 --

import datetime
import time
import json
import urllib
import re
import sys
import threading
from email.mime.text import MIMEText
import smtplib
from time import sleep
from threading import Timer
from _ast import While

default_encoding = 'utf-8'
reload(sys)
sys.setdefaultencoding(default_encoding)

def getdate(city,startdate,enddate):
url = 'https://sjipiao.alitrip.com/search/cheapFlight.htm?startDate=%s&endDate=%s&' \
'routes=%s-&_ksTS=1469412627640_2361&callback=jsonp2362&ruleId=99&flag=1' % (startdate, enddate,city)
price_html = urllib.urlopen(url).read().strip()

pattern = r'jsonp2362\(\s+(.+?)\)'
re_rule = re.compile(pattern)

json_data = re.findall(pattern, price_html)[0]
price_json = json.loads(json_data)

flights = price_json['data']['flights']  # flights Info


return flights

def sendmail(a,b,c,d):
_user = "xxxxxxxxxxx@163.com"
_pwd = "xxxxxxxxxxx"
_to = "xxxxxxxxxxxxx@qq.com"
msg = MIMEText('%s%s%s%s'%(a,b,c,d),'plain','utf-8')
msg["Subject"] = "有特价票啦~"
msg["From"] = _user
msg["To"] = _to
try:
s = smtplib.SMTP_SSL("smtp.163.com", 465)
s.login(_user, _pwd)
s.sendmail(_user, _to, msg.as_string())
s.quit()
print "Success!"

except smtplib.SMTPException:
print "Falied"

def task_query_flight():
city=str(sys.argv[1])
year=int(sys.argv[2])
month=int(sys.argv[3])
day=int(sys.argv[4])
delay=int(sys.argv[5])

if city=='DL':
city='DLC'
elif city=='NJ':
city='NKG'
elif city=='BJ':
city='BJS'
today = datetime.date(year,month,day)
enddate = today + datetime.timedelta(delay)
print'从%s到%s的最便宜的机票价格是' % (today,enddate)

flights=getdate(city, today, enddate)


for f in flights:
    if f['discount'] <=2  :
        source = '从：%s-' % f['depName']
        dest = '到：%s\t' % f['arrName']
        price = '\t价格：%s%s(折扣:%s)\t' % ((f['price']), f['priceDesc'], f['discount'])
        depart_date = '\t日期：%s' % f['depDate']
        print source+dest+price+depart_date

        with open('store.txt','a') as f:
            f.write(' ')

        with open('store.txt','r') as f:
            for line in f.readlines():
                if '%s%s%s%s'%(source,dest,price,depart_date) in line:
                    Timer(60,task_query_flight).start()
                else:
                    sendmail(source, dest, price, depart_date)
                    with open('store.txt', 'a') as f:
                        f.write('%s%s%s%s'%(source,dest,price,depart_date))
                    Timer(60,task_query_flight).start() 

'''
两个问题：
1、列表越界  list out of range
2、定时器只会运行一次  不知什么原因。




if 没找到discount<2的，
   则  循环一直找
  并且设定时器到某一时间即清空文件内容
'''

while True:
task_query_flight()
current_time = time.localtime(time.time())
if((current_time.tm_hour == 7) and (current_time.tm_min == 0)):
with open('store1.txt','w') as f:
f.truncate()
time.sleep(60)

if name == '__main__':
task_query_flight()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zqbnqsdsmd 2016-12-24 15:49
关注
http://blog.csdn.net/liyuetao680/article/details/48422171

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python爬虫使用selenium切换窗口问题 python selenium 有问必答爬虫
2022-03-18 12:30

回答 2 已采纳 driver.swith_to.window(driver.window_handles[1]),函数名写错了，不是swith是switch，少写了个c，改成：driver.switch_to.win
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
Python爬虫实战：航班和机票信息抓取与分析
2023-10-30 21:37

人工智能_SYBH的博客在本文中，我们已经探讨了如何使用Python编写爬虫来获取航班和机票信息。我们涵盖了从准备工作到数据分析的各个步骤，并提供了示例代码。请记住，网站的结构和数据可能会随时间变化，所以您需要定期更新和调整您的...
如何解决python爬虫问题？ python 人工智能爬虫
2022-08-15 09:11

回答 1 已采纳应该是css选择器里面的规则不够明确，可改成href = selectors.css('div.container div div div ul li a::attr(href)').getall()
Python爬虫出现了问题如何调试 python 有问必答
2021-05-22 10:56

回答 4 已采纳这个错误是说你对了“None调用了 text 属性. 应该是调用 text 属性.的对象没有正确获取到。对象的值获取的是None 你发一下代码来看看
关于使用python实现的网页爬虫程序卡死的问题 python 有问必答爬虫
2021-08-07 13:04

回答 3 已采纳你可以用time模块进行计时，每过10分钟先用os.system()重新打开程序，然后调用sys.exit()关闭旧进程如果有用，希望采纳哦~
航班信息爬虫：Python爬虫获取航班信息和机票价格
2023-08-02 14:06

网络爬虫大揭秘的博客本篇博客将指导您使用Python编写爬虫，从航空公司网站上获取航班信息和机票价格。我们将介绍如何选择目标网站和处理查询参数，同时为您提供充分的代码示例。跟随本文的指引，您将能够构建一个高效、合法的航班信息...
python爬虫问题 python 爬虫
2022-10-09 11:41

回答 2 已采纳
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
Python爬虫爬取不同网页的相似内容 python 爬虫
2022-03-11 17:52

回答 2 已采纳 re模块，正则表达式，split切分
基于Python实现的携程机票数据爬取源码
2024-03-25 17:38

项目概述：本项目采用Python语言开发，旨在实现对携程机票数据的爬取。...本项目不仅展示了Python在网络...简单描述：本项目基于Python爬虫技术，针对携程机票数据进行高效抓取与处理，实现了数据整合与利用的前期工作。
python爬虫时出现问题，运行结果出来后不会操作 python
2021-09-16 17:35

回答 2 已采纳上一行没打逗号
python爬虫是干嘛的？python爬虫能做什么？
2022-10-19 19:05

白乎乎的方法的博客爬虫调研可以说类似于网上的问卷调查，它可以抓取你所有的评论并对其进行分析...爬虫又被称为网络蜘蛛，它可以抓取我们页面的一些相关数据，近几年Python技术的到来，让我们对爬虫有了一个新的认知，那就是Python爬虫。
28个精品Python爬虫实战项目
2023-03-04 17:19

秃头雨雨的博客 Python当然是这类的赢家，它的语法容易，简单易学，Python允许...Python是所有编程语言里面，代码量最低，非常易于读写，遇到问题时，程序员可以把更多的注意力放在问题本身上，而不用花费太多精力在程序语言、语法上。
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器

python爬虫抓取机票时出现的问题

-*- coding: utf-8 -*-

1条回答 默认 最新

悬赏问题

-- coding: utf-8 --

1条回答默认最新