爬虫，爬b和大学代码，求解

问题遇到的现象和发生背景

两个代码错了

用代码块功能插入代码，请勿粘贴截图

import time
import random
import requests
from urllib.parse import urlencode
from bs4 import BeautifulSoup
import csv
burl='https://search.bilibili.com/all'
headervalue={
    'user-agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}
pe=[
      {'http':'http://221.226.75.86:55443'},
      {'http':'http://183.247.152.98:53281'},
      {'http':'http://118.163.13.200:8080'},
  ]
def p(content):
    items=[]
    soup=BeautifulSoup(content,'lxml')
    videolist=soup.select('video-list row>div')
    for v in videolist:
        title=v.select('.bili-video-card__info--right>h3')[0].text.strip()#视频标题
        vtime=v.select('.bili-video-card__stats__duration')[0].text.strip()#获取视频时长
        vcount=v.select('.bili-video-card__stats--left>span')[0].text.strip()#观看次数
        up=v.select('.bili-video-card__info--right>span')[1].获text.strip()#取上传时间
        upm=v.select('.bili-video-card__info--right>span')[0].获text.strip()#获取up主
        vlink='http:'+v.select('.bili-video-card__wrap __scale-wrap').attrs['href']#获取视频链接
        item={
         '视频标题':title,
         '视频时长':vtime,
         '观看次数':vcount,
         '上传时间':up,
         'up主':upm,
         '视频链接':vlink}
        items.append(item)
        print(item)
def getp(kw,page):
    pa={
        'keyword':kw,
        'page':str(page)
    }
    url=burl+urlencode(pa)
    try:
        r=requests.get(url,headers=headervalue,ps=random.choice(pe))
    except:
        print('请求失败')
    else:
        if r.status_code==200:
            items=p(r.text)

    sleept=random.randint(2,5)+random.random()
    time.sleep(sleept)
if __name__=='__main__':
    keyword=input('请输入关键词:')
    with open(keyword+'.csv','w',newline='',encoding='utf-8') as file:
        names=['视频标题','视频时长','观看次数','上传时间','up主','视频链接']
        writer=csv.DictWriter(file,fieldnames=names)
        writer.writeheader()
        for i in range(1,4):
            print('正在爬取第%d页的视频信息' % i)
            items=getp(keyword,i)
            #writer.writeheader(items)
这个代码错在哪里了第一个，求解
import re

import requests
from bs4 import BeautifulSoup
import bs4
def gethtmltext(url):#获取网页内容
    try:
        r=requests.get(url)
        r.raise_for_status()#检查是否异常
        r.encoding=r.apparent_encoding#响应编码内容，a..g分析响应编码方式
        html=r.text
    except:

        html='爬取失败'
    return html
def findlist(ulist,html):#提取相关内容
    soup=BeautifulSoup(html,'html.parser')
    dates=re.compile('<tbody.*?data-v-3fe7d390.*?>(.*?)')
    date=re.findall(dates,html)
    for i in date:
        if isinstance(i,bs4.element.Tag):#子节点会包含换行符之类的节点
            t=i.find_all('td')
            ulist.append([t[0].div.string,t[1].find(name='a',attr={'class':'name-cn'}).string,
                          t[2].get_text(),t[3].get_text,t[4].string,t[5].string])
def printulist(ulist,num):#格式化函数
    cols="{0:{6}^10}\t{1:{6}^10}\t{2:{6}^10}\t{3:{6}^10}\t{4:{6}^10}\t{0:{5}^10}\t"
    print(cols.format('排名','大学名称','省市','类型','总分','办学层次'),chr(12288))
    for k in range(num):
        j=ulist[k]
        print(cols.format(str(j[0]).strip(),str(j[1]).strip(),str(j[2]).strip(),str(j[3]).strip(),str(j[4]).strip(),str(j[5]).strip(),chr(12288)))
def main():
    ulist=[]
    url='https://shanghairanking.cn/rankings/bcur/2022'
    html=gethtmltext(url)
    findlist(ulist,html)
    printulist(ulist,20)
main()
第二个代码错在哪里了求解

运行结果及报错内容

第一个请求失败，第二个IndexError: Replacement index 6 out of range for positional args tuple

我想要达到的结果

解决代码

展开全部

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
BsonJ 2022-11-16 02:46
关注
第一个错误：使用代理前有测试过它们的有效性吗，如果不是多个爬虫，没必要用代理。
第二个错误：明显是索引超出数组长度了吖。看看85、86行t数组的具体数量

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

python爬虫问题求解 python 爬虫
2022-04-29 03:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
抓包数据和爬虫数据不一样 python 爬虫
2022-09-16 10:03

回答 1 已采纳补全headers和cookies相关参数再去请求就好了
B站爬虫状态码-412怎么办 json python 爬虫
2022-10-29 12:24

回答 1 已采纳 412本身是没有满足的先决条件，你得检查上面那些头信息是否缺少
爬虫教程（ 6 ） --- 爬虫进阶、扩展
2022-07-10 23:35

「已注销」的博客 1. 先看一个最简单的爬虫。 import requests url = "http://www.cricode.com" r = requests.get(url) print(r.text) 2. 一个正常的爬虫程序上面那个最简单的爬虫，是一个不完整的残疾的爬虫。因为爬虫程序通常...
爬虫爬到的数据和看见的数据不一样 python 爬虫
2022-02-21 14:34

回答 1 已采纳在xpath里把tr[3]改成tr就可以了，因为网页里的表格奇数行和偶数行不是一个tr下的元素
python爬虫代码运行输出结果不完整 pycharm python 爬虫
2021-11-19 17:32

回答 1 已采纳不知道你解决了没，我就简单说一下我的解决方法。 obj3 = re.compile(r'<div id="Zoom">.*?◎片　　名(?P<movie>.*?)<br
python爬虫代码出现错误 python 爬虫
2022-08-23 08:00

回答 1 已采纳导入了太多没有用的模块，参考我的代码： import requests #发送HTTP请求 from bs4 import BeautifulSoup headers ={ "User-Age
文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）
2022-07-28 17:10

Yolo阿的博客 1 爬虫 1.1 爬虫原理这部分内容可以跳过，掌握与否对后面内容的阅读影响并不大，但有兴趣的话可以看看呐~ 实现一个爬虫，一般需要经过两个步骤：处理请求和解析源码/数据。处理请求方面，我们可以使用...
beautifulSoup4爬虫问题，python简单代码请教一下 python 有问必答爬虫
2022-01-15 09:29

回答 1 已采纳就是获取 soup.find_all("script", type="text/javascript") 返回的结果，取第3个元素的文本。
python爬虫网页标签个别无法读取 python 开发语言有问必答爬虫
2022-04-05 14:09

回答 3 已采纳因为个别标签字典中没有bond_nm和bond_nm_tip键 data2 = data_get['bond_nm'] data5 = data_get['bond_nm_tip']
爬虫代码没有改变每次爬取的数据不同？ python 爬虫
2021-09-19 07:55

回答 1 已采纳你应该发一发有什么错误，最佳250音乐，这本来就是可能变得，同时网络不好的时候，睡眠2秒是不够的，加上异常处理部分
编程语言发展简史
2022-03-02 05:51

lywStuding的博客编程最早可以追溯到提花机的使用，那时我国古代人为了在衣服上设计出绚丽多彩的图案，研制出了花本提花机。
B站上这些Python和数据分析视频真香！
2021-04-17 16:18

数据不吹牛的博客 Django 网站开发链接：https://www.bilibili.com/video/BV1AE41117Up 2. Flask 网站开发介绍了Python编程语言基础，Web前端基础开发，熟练基于Flask世界流行Web框架的网站后台开发技术，包括Jinja2模板、...
爬虫技术现状分析
2019-12-21 04:04

编程哲学家的博客需求万维网上有着无数的网页，包含着海量的信息，无孔不入、森罗万象...所以我们需要一种能自动获取网页内容并可以按照指定规则提取相应内容的程序，这就是爬虫。原理传统爬虫从一个或若干初始网页的URL开始，...
深入理解CS61B：Java编程基础与实践
2024-09-23 07:33

IYA1738的博客简介：CS61B是加州大学伯克利分校的计算机科学课程，专注于Java编程语言的深入教学。课程内容涉及数据结构、算法分析和面向对象编程等核心计算机科学概念，强调Java语言平台独立性和面向对象特性。学习包括Java基础...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金1元 11月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月13日

爬虫，爬b和大学代码，求解

问题遇到的现象和发生背景

用代码块功能插入代码，请勿粘贴截图

运行结果及报错内容

我想要达到的结果

1条回答 默认 最新

问题事件

1条回答默认最新