为啥会出现索引超出范围，是哪个地方出问题了


import requests
import re
import pymysql
import time


def baidu(company):
    ur1 = 'https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&ie=utf-8&word=' + company
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36 Edg/96.0.1054.29'}
    res = requests.get(ur1, headers=headers, timeout=10).text
    p_title = 'data-click="{.*?}"><!--s-text-->(.*?)<!--/s-text--></a>'
    p_href = '<h3 class="news-title_1YtI1"><a href="(.*?)" target="_blank" class="news-title-font_1xS-F"'
    p_date = '<span class="c-color-gray2 c-font-normal" aria-label="发布于：.*?">(.*?)</span>'
    p_info = '<span class="c-color-gray c-font-normal c-gap-right" aria-label="新闻来源：.*?">(.*?)</span>'
    href = re.findall(p_href, res, re.S)
    title = re.findall(p_title, res, re.S)
    date = re.findall(p_date, res, re.S)
    info = re.findall(p_info, res, re.S)


    for i in range(len(title)):
        title[i] = title[i].strip()
        title[i] = re.sub('<.*?>', '', title[i])
        title[i] = re.sub('[...]', '', title[i])
        title[i] = re.sub('&.*?', '', title[i])
        title[i] = re.sub('#', '', title[i])
        title[i] = re.sub('＃', '', title[i])
        href[i] = href[i].strip()
        date[i] = date[i].strip()
        date[i] = re.sub('月', '-', date[i])
        date[i] = re.sub('日', '', date[i])
        if ('小时' in date[i]) or ('分钟' in date[i]):
            date[i] = time.strftime("%Y-%m-%d")
        else:
            date[i] = date[i]
        # print(str(i+1)+'.'+title[i])
        # print(href[i])
        # print(company+'该条舆情评分为'+str(score[i]))

    #舆情0数据评分4.0
    score = []
    keywords = ['违约', '诉讼', '兑付', '投诉']
    for i in range(len(title)):
        num = 0
        try:
            article = requests.get(href[i],headers = headers,timeout =10).text
        except:
            article = '单个新闻爬取失败'

        try:
            article = article.encode('ISO-8859-1').decode('utf-8')
        except:
            try:
                article = article.encode('ISO-8859-1').decode('gbk')
            except:
                article = article

        p_article = '<p>(.*?)</p>'
        article_main = re.findall(p_article,article)
        article = ''.join(article_main)

        for k in keywords:
            if (k in article) or (k in title[i]):
                num -= 5
            if ('违约' in article):
                num -= 10
        score.append(num)

        company_re = company[0]+'.{0,5}'+company[-1]
        if len(re.findall(company_re,company))<1:
            title[i]=''
            href[i]=''
            date[i]=''
            info[i]=''
            score[i]=''
        while''in title:
            title.remove('')
        while''in href:
            href.remove('')
        while''in date:
            date.remove('')
        while''in info:
            info.remove('')
        while''in score:
            score.remove('')

        for i in range(len(title)):
            print(str(i+1)+'.'+title[i]+'('+date[i]+' '+info[i]+')')
            print(href[i])
            print(company+'该条新闻的舆情评分为'+ str(score[i]))

#入数据库
    for i in range(len(date)):
        db = pymysql.connect(host='localhost', port=3306, user='root', password='', database='pachongnew',charset='utf8')
        cur = db.cursor()
        sql_1 = 'SELECT * FROM article WHERE company = %s'
        cur.execute(sql_1, company)
        data_all = cur.fetchall()
        title_all = []
        for j in range(len(data_all)):
            title_all.append(data_all[j][1])
        if title[i] not in title_all:
            sql_2 = 'INSERT INTO article(company,title,href,date,info,score) VALUES (%s,%s,%s,%s,%s,%s)'
            cur.execute(sql_2,(company,title[i],href[i],date[i],info[i],score[i]))
            db.commit()
        cur.close()
        db.close()
    print('-------------------------------------------------------')

baidu('腾讯')

    #各种公司
# companys = ['阿里巴巴', '京东', '华能信托', '腾讯','百度集团']
# for i in companys:
#     try:
#         baidu(i)
#         print(i + '百度新闻爬取成功')
#     except:
#         print(i + '百度新闻爬取失败')

为啥会出现这种情况？[]([](
)))

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

CSDN专家-文盲老顾 2021-11-29 11:51

关注


    title = re.findall(p_title, res, re.S)
    date = re.findall(p_date, res, re.S)

        title[i] = re.sub('＃', '', title[i])
        href[i] = href[i].strip()
        date[i] = date[i].strip()

你的 title 匹配的到数量和 date 匹配到的数量不一致


['<em>腾讯</em>首页', '...市一年半GMV累计破亿,距离下一个“螺蛳粉”还有多远 - <em>腾讯</em>...', '劳动力短缺达70年之最,美国一些地方开始瞄上了“童工”? - <em>腾讯</em>...', '助力数字政府建设,<em>腾讯</em>数字政务全面升级', '“复出在即 即将迎来完全体的勇士”汤普森被下放至发展联盟', '<em>腾讯</em>新闻', '中国科技三巨头百度,阿里巴巴和<em>腾讯</em>如何在2020年取得成功', '<em>腾讯</em>,搬起石头砸自己的脚!', '马化腾也没料到,工信部动真格了,勒令<em>腾讯</em>旗下所有APP停更', '<em>腾讯</em>游戏无法投资每个王信文'] 
['今天', '今天', '34分钟前', '3小时前', '46分钟前', '昨天22:51', '昨天21:50', '4天前', '昨天14:36']

百度搜索，部分结果上没有日期的，你需要自己适配

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(4条)

报告相同问题？

关注问题

python元组索引超出范围_“元组索引超出范围”错误？
2020-12-22 13:36

weixin_39616056的博客在animalFormat中，替换：{1}有：^{pr2}$这个改变必须在两个地方进行。在由于使用关键字为format提供参数，因此1没有可引用的内容。在更简单的例子请注意这一点：>>> d = {'a':1, 'b':2}>>> '...
python中字符串索引超出范围_Python:'字符串索引超出范围'
2021-01-14 02:39

王科特的博客这是一个典型的off-by-one error(或者，在本例中是off-by-4错误)。...在但您可能需要考虑重写代码以使用更高级别的抽象，从而使这些问题更难遇到，也更易于思考。在首先，不是这样：x= 0while x < stringlength...
python列表索引超出范围 等于啥_Python：列表索引超出范围，但只是有时
2021-03-05 22:54

weixin_39731807的博客在问题是，当我检查当前3x3正方形中是否存在该值时，我偶尔会得到一个“IndexError:list index out of range”。我已经打印了值和当前单元格，并确定只有当列是倒数第二或倒数第7或第8列时才会发生问...
python超出索引范围_为什么Python允许序列的片索引超出范围？
2020-12-21 03:36

weixin_39895684的博客关于超出范围指数的部分问题切片逻辑自动将索引剪辑到序列的长度。在为了方便起见，允许切片索引超出端点。必须对每个表达式进行范围检查，然后手动调整限制，这将是一件痛苦的事，所以Python会为您做这件事。在考虑...
python中字符串索引超出范围_Python3中“字符串索引超出范围”的奇怪解决方案无法找出原因？...
2021-02-09 20:02

白小俗的博客所以，我在麻省理工学院6.00.1课程中遇到了一个问题集，我必须确定随机生成的字符串中最长的字母子串(例如“abcdtttyyttt”，最长的字母子串应该是“abcdt”)。在解决问题的代码如下所示：s = "abzabc"longestWord =...
python官方扩展索引是什么_为什么python允许序列的切片索引超出范围?
2021-02-10 08:06

王向庄的博客必须对每个表达式进行范围检查,然后手动调整限制,这将是一件很痛苦的事情,所以Python会为您这样做。考虑希望显示不超过文本消息前50个字符的用例。简单的方法(Python现在做的事情):preview = msg[:50]或者困难的方法...
python超出列表范围_关于(python)列表索引超出范围：(python)列表索引超出范围-迭代...
2020-11-29 12:24

weixin_39840606的博客 1234for i in range(len(lst)):if lst[i][0]==1 or lst[i][1]==1:lst.remove(lst[i])return lst这就产生了"indexerror:list index out of range"(索引错误：列表索引超出范围)为什么会发生这种情况？什么是lst？请...
python堆栈溢出的原因_列表索引超出范围，并且堆栈溢出错误 - python
2020-12-06 02:48

weixin_39600704的博客由于我无法选择Python中的类型，因此我继续获得超出范围错误和stackoverflows的列表索引，但我不知道如何处理。我研究了枚举和其他iterate(ble)函数，但无济于事。 Id回答说，这可能会帮助将来的人们在从C到python的...
Python 语法及入门（超全超详细）专为Python零基础一篇博客让你完全掌握Python语法
2023-04-15 19:26

dream_ready的博客 Python 语法及入门（超全超详细）专为Python零基础一篇博客让你完全掌握Python语法
短期内快速掌握Python编程基础
2025-04-04 22:31

张彦峰ZYF的博客本文从工程实践视角出发，对 Python 基础知识进行了系统梳理与...文章不追求速成，而强调理解与动手实践，适合初学者入门，也可作为有编程经验读者回顾 Python 基础的参考材料，为后续深入学习与实际应用打下稳定基础。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月29日

为啥会出现索引超出范围，是哪个地方出问题了

5条回答 默认 最新

问题事件

5条回答默认最新