gyyxhy 2022-08-23 16:00 采纳率: 66.7%
浏览 133
已结题

python爬虫代码出现错误

import os
import requests #发送HTTP请求
import random #
import time
from bs4 import BeautifulSoup
from lxml import etree
import threading
from fake_useragent import UserAgent
import pandas as pd
import numpy as np #用于计算
from pyecharts import options as opts
from pyecharts.charts import Map
from pyecharts.charts import Bar
from pyecharts.charts import Pie
from pyecharts.charts import Line
from pyecharts.charts import Funnel
from pyecharts.faker import Faker

ua = UserAgent(use_cache_server=False)
headers ={
'User-Agent': ua.chrome,
}
url = 'https://movie.douban.com/top250?start=0&filter=%27
request =requests.get(url,headers=headers)
print(request)

BsBOJ=BeautifulSoup(request.content,'lxml')
pic = BsBOJ.find_all(attrs={'class': 'pic'})
film_urls=[]
for x in pic:
href = x.a.get('href')
film_urls.append(href)
print(film_urls)
film_url='https://movie.douban.com/subject/1291561/'
request =requests.get(film_url,headers=headers,timeout=10)
request.encoding = 'utf-8'
film_info=[]
BsBOJ=BeautifulSoup(request.text,'html.parser')
#排名
rank = BsBOJ.find(attrs={'class': 'top250-no'}).text.split('.')[1]
#电影名
film_name = BsBOJ.find(attrs={'property': 'v:itemreviewed'}).text.split(' ')[0] #split 将中英文从空格处分开
#导演
director = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[1].split(':')[1].split('/')
#编剧
scriptwriter = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[2].split(':')[1].split('/')
#主演
actor = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[3].split(':')[1].split('/')
#类型
filmtype = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[4].split(':')[1].split('/') #
#制片国家/地区
area = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[5].split(':')[1].split('/') #
#语言
language = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[6].split(':')[1].split('/') #
#上映日期
initialReleaseDate = min(BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[7].split(':')[1].split('/')).split('(')[0] #
#片长
runtime = BsBOJ.find(attrs={'property': 'v:runtime'}).text #
#评分(平均分)
rating_num = BsBOJ.find(attrs={'property': 'v:average'}).text #
#五星百分比
stars5_rating_per = BsBOJ.find(attrs={'class': 'rating_per'}).text #
#评价人数
rating_people = BsBOJ.find(attrs={'property': 'v:votes'}).text #
film_info=[rank,film_name,director,scriptwriter,actor,filmtype,area,language,initialReleaseDate,runtime,rating_num,stars5_rating_per,rating_people]
print(film_info)

出现错误,错误显示是:ImportError: cannot import name 'ProxySchemeUnsupported' from 'requests.packages.urllib3.exceptions

  • 写回答

1条回答 默认 最新

  • honestman_ 2022-08-23 16:13
    关注

    导入了太多没有用的模块,参考我的代码:

    import requests #发送HTTP请求
    from bs4 import BeautifulSoup
    headers ={
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
    }
    url = 'https://movie.douban.com/top250?start=0&filter=%27'
    request =requests.get(url,headers=headers)
    print(request)
    
    BsBOJ=BeautifulSoup(request.content,'lxml')
    pic = BsBOJ.find_all(attrs={'class': 'pic'})
    film_urls=[]
    for x in pic:
        href = x.a.get('href')
        film_urls.append(href)
    print(film_urls)
    film_url='https://movie.douban.com/subject/1291561/'
    request =requests.get(film_url,headers=headers,timeout=10)
    request.encoding = 'utf-8'
    film_info=[]
    BsBOJ=BeautifulSoup(request.text,'html.parser')
    #排名
    rank = BsBOJ.find(attrs={'class': 'top250-no'}).text.split('.')[1]
    #电影名
    film_name = BsBOJ.find(attrs={'property': 'v:itemreviewed'}).text.split(' ')[0] #split 将中英文从空格处分开
    #导演
    director = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[1].split(':')[1].split('/')
    #编剧
    scriptwriter = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[2].split(':')[1].split('/')
    #主演
    actor = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[3].split(':')[1].split('/')
    #类型
    filmtype = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[4].split(':')[1].split('/') #
    #制片国家/地区
    area = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[5].split(':')[1].split('/') #
    #语言
    language = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[6].split(':')[1].split('/') #
    #上映日期
    initialReleaseDate = min(BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[7].split(':')[1].split('/')).split('(')[0] #
    #片长
    runtime = BsBOJ.find(attrs={'property': 'v:runtime'}).text #
    #评分(平均分)
    rating_num = BsBOJ.find(attrs={'property': 'v:average'}).text #
    #五星百分比
    stars5_rating_per = BsBOJ.find(attrs={'class': 'rating_per'}).text #
    #评价人数
    rating_people = BsBOJ.find(attrs={'property': 'v:votes'}).text #
    film_info=[rank,film_name,director,scriptwriter,actor,filmtype,area,language,initialReleaseDate,runtime,rating_num,stars5_rating_per,rating_people]
    print(film_info)
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 8月31日
  • 已采纳回答 8月23日
  • 创建了问题 8月23日

悬赏问题

  • ¥15 运动想象脑电信号数据集.vhdr
  • ¥15 三因素重复测量数据R语句编写,不存在交互作用
  • ¥15 微信会员卡等级和折扣规则
  • ¥15 微信公众平台自制会员卡可以通过收款码收款码收款进行自动积分吗
  • ¥15 随身WiFi网络灯亮但是没有网络,如何解决?
  • ¥15 gdf格式的脑电数据如何处理matlab
  • ¥20 重新写的代码替换了之后运行hbuliderx就这样了
  • ¥100 监控抖音用户作品更新可以微信公众号提醒
  • ¥15 UE5 如何可以不渲染HDRIBackdrop背景
  • ¥70 2048小游戏毕设项目