爬虫爬取网站排行榜显示索引超出范围

import re
import requests
from bs4 import BeautifulSoup
import bs4

url = 'https://movie.douban.com/chart'
head={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64)AppleWebKit/535.1(KHTML, like Gecko)Chrome/14.0.835.163 Safari/535.1'
}
response = requests.get(url,headers = head)
html = response.text
findLink = re.compile(r'<a class="nbg" href="(.?)" title=',re.S) # 影片链接规则
findTitle = re.compile(r'title="(.*?)">',re.S) # 影片片名
findRating = re.compile(r'rating_nums">(.?)',re.S) # 影片评分
findInq = re.compile(r'

(.*?)

',re.S) # 概况
soup = BeautifulSoup(html,"html.parser")
datalist = []
for item in soup.find_all('div',class_=""):
#print(item)
data = []

item = str(item)           
link = re.findall(findLink,item)[0]    # findall返回的是列表 
links = "链接："+link
data.append(links)
 
title = re.findall(findTitle,item)[0]
titles = "电影："+title
data.append(titles)

rating = re.findall(findRating,item)[0]
ratings = "评分："+rating
data.append(ratings)
        
inq = re.findall(findInq,item)[0]
inqs = "概况："+inq
data.append(inqs)
                    
datalist.append(data)   #处理好的一部电影信息             
print(datalist)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
bekote 2022-03-21 17:21
关注
加个判断

lst = re.findall(findLink,item) if len(lst) > 0: link = lst[0] links = "链接："+link data.append(links)
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容