IndexError: list index out of range

写这个程序原本想提取下文本text中http的个数,但是python中运行程序总出现这个问题,并且时好时坏,有时能运行,有时报错,谁能帮忙解决下,谢谢

from __future__ import division
import json
import codecs
import sys
import string
import os,random
import re
import shutil
import jieba
import jieba.analyse
reload(sys)
sys.setdefaultencoding("utf-8")

class Comment:
    def __init__(self,id,mid,text):
        self.id = id
        self.mid = mid
        self.text = text
    def getid(self):
        return self.id
    def getmid(self):
        return self.mid
    def gettext(self):
        return self.text

def readallcomments(inputfile):
    AllComments = []
    commentFile = open(inputfile)
    for line in commentFile.readlines():
        sep = line.split('\t')
        comment = Comment(sep[0],sep[1],sep[2])
        AllComments.append(comment)
    commentFile.close()
    return AllComments

if __name__ == '__main__':
    file=open(r'E:\\project\\myOutput.txt')
    rumorcommentpath = 'E:\\project\\gerenjieshao\\'
    rumorhttppath = 'E:\\project\\result\djym\\'
    for line in file:
        line=line.strip('\n')
        outfile = open(os.path.join(rumorhttppath,line+'.txt'),'w')
        inputfile = rumorcommentpath + line + '.txt'
        allcomments = []
        allcomments = readallcomments(inputfile)
        for i in allcomments: 
            http = re.findall("(?isu)(http\://[a-zA-Z0-9\.\?/&\=\:]+)",i.gettext())
            outfile.writelines(str(i.getid())+'\t'+str(i.getmid())+'\t'+str(len(http))+'\r\n')
            print 'processing...'+line
        outfile.close()

2个回答

数组越界了,你检查一下出错的时候对应的代码行数,是不是你给数组的下标超过数组长度了

xiongbaobao321
浅笑心心 回复oyljerry: 第一个文件最后是空行,是否跟这个有关?
接近 3 年之前 回复
xiongbaobao321
浅笑心心 回复oyljerry: 测试了一下,是在执行完第一个文件后,第二个还没开始执行,就报出错误,且第一个文件最后一行是个空行,是否跟这个有关?
接近 3 年之前 回复

http = re.findall("(?isu)(http://[a-zA-Z0-9.\?/&\=:]+)",i.gettext())
存在找不到的情况,此时就越界了。

xiongbaobao321
浅笑心心 回复caozhy: 测试了一下,是在执行完第一个文件后,第二个还没开始执行,就报出错误,且第一个文件最后一行是个空行,是否跟这个有关?
接近 3 年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问