python爬虫代码出现错误

import os
import requests #发送HTTP请求
import random #
import time
from bs4 import BeautifulSoup
from lxml import etree
import threading
from fake_useragent import UserAgent
import pandas as pd
import numpy as np #用于计算
from pyecharts import options as opts
from pyecharts.charts import Map
from pyecharts.charts import Bar
from pyecharts.charts import Pie
from pyecharts.charts import Line
from pyecharts.charts import Funnel
from pyecharts.faker import Faker

ua = UserAgent(use_cache_server=False)
headers ={
'User-Agent': ua.chrome,
}
url = 'https://movie.douban.com/top250?start=0&filter=%27
request =requests.get(url,headers=headers)
print(request)

BsBOJ=BeautifulSoup(request.content,'lxml')
pic = BsBOJ.find_all(attrs={'class': 'pic'})
film_urls=[]
for x in pic:
href = x.a.get('href')
film_urls.append(href)
print(film_urls)
film_url='https://movie.douban.com/subject/1291561/'
request =requests.get(film_url,headers=headers,timeout=10)
request.encoding = 'utf-8'
film_info=[]
BsBOJ=BeautifulSoup(request.text,'html.parser')
#排名
rank = BsBOJ.find(attrs={'class': 'top250-no'}).text.split('.')[1]
#电影名
film_name = BsBOJ.find(attrs={'property': 'v:itemreviewed'}).text.split(' ')[0] #split 将中英文从空格处分开
#导演
director = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[1].split(':')[1].split('/')
#编剧
scriptwriter = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[2].split(':')[1].split('/')
#主演
actor = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[3].split(':')[1].split('/')
#类型
filmtype = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[4].split(':')[1].split('/') #
#制片国家/地区
area = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[5].split(':')[1].split('/') #
#语言
language = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[6].split(':')[1].split('/') #
#上映日期
initialReleaseDate = min(BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[7].split(':')[1].split('/')).split('(')[0] #
#片长
runtime = BsBOJ.find(attrs={'property': 'v:runtime'}).text #
#评分（平均分）
rating_num = BsBOJ.find(attrs={'property': 'v:average'}).text #
#五星百分比
stars5_rating_per = BsBOJ.find(attrs={'class': 'rating_per'}).text #
#评价人数
rating_people = BsBOJ.find(attrs={'property': 'v:votes'}).text #
film_info=[rank,film_name,director,scriptwriter,actor,filmtype,area,language,initialReleaseDate,runtime,rating_num,stars5_rating_per,rating_people]
print(film_info)

出现错误，错误显示是：ImportError: cannot import name 'ProxySchemeUnsupported' from 'requests.packages.urllib3.exceptions

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

honestman_ 2022-08-23 16:13

关注

导入了太多没有用的模块，参考我的代码：

import requests #发送HTTP请求
from bs4 import BeautifulSoup
headers ={
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
}
url = 'https://movie.douban.com/top250?start=0&filter=%27'
request =requests.get(url,headers=headers)
print(request)

BsBOJ=BeautifulSoup(request.content,'lxml')
pic = BsBOJ.find_all(attrs={'class': 'pic'})
film_urls=[]
for x in pic:
    href = x.a.get('href')
    film_urls.append(href)
print(film_urls)
film_url='https://movie.douban.com/subject/1291561/'
request =requests.get(film_url,headers=headers,timeout=10)
request.encoding = 'utf-8'
film_info=[]
BsBOJ=BeautifulSoup(request.text,'html.parser')
#排名
rank = BsBOJ.find(attrs={'class': 'top250-no'}).text.split('.')[1]
#电影名
film_name = BsBOJ.find(attrs={'property': 'v:itemreviewed'}).text.split(' ')[0] #split 将中英文从空格处分开
#导演
director = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[1].split(':')[1].split('/')
#编剧
scriptwriter = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[2].split(':')[1].split('/')
#主演
actor = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[3].split(':')[1].split('/')
#类型
filmtype = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[4].split(':')[1].split('/') #
#制片国家/地区
area = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[5].split(':')[1].split('/') #
#语言
language = BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[6].split(':')[1].split('/') #
#上映日期
initialReleaseDate = min(BsBOJ.find(attrs={'id': 'info'}).text.split('\n')[7].split(':')[1].split('/')).split('(')[0] #
#片长
runtime = BsBOJ.find(attrs={'property': 'v:runtime'}).text #
#评分（平均分）
rating_num = BsBOJ.find(attrs={'property': 'v:average'}).text #
#五星百分比
stars5_rating_per = BsBOJ.find(attrs={'class': 'rating_per'}).text #
#评价人数
rating_people = BsBOJ.find(attrs={'property': 'v:votes'}).text #
film_info=[rank,film_name,director,scriptwriter,actor,filmtype,area,language,initialReleaseDate,runtime,rating_num,stars5_rating_per,rating_people]
print(film_info)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

Python爬虫程序出现错误如何修改 python
2022-07-22 11:10

回答 2 已采纳控制台 pip install requests
python爬虫加载js文件错误 python 爬虫
2021-11-20 10:30

回答 1 已采纳你应该把js发出来的把js放到浏览器控制台执行以下看看是否有问题，如果正常运行则说明你本地的环境不符，建议安装nodejs再尝试爬虫逆向社区-爬虫逆向论坛-CSD
python爬虫代码出现报错 python 有问必答
2021-06-23 17:58

回答 3 已采纳 reg='data-src="(.*o_auto)|(.*\.jpg)"\n'#源代码格式图片你正则中有两个（），每次会获取两个子匹配结果，imglist的每个元素都是包含两个子匹配结果的元组。
python 爬虫代码
2023-03-09 21:49

qq_繁华的博客 python 爬虫代码
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
全网最全python爬虫精进
2021-04-25 17:33

yk 坤帝的博客因为这些数据是用计算机的语言写的，浏览器还要把这些数据翻译成我们能看得懂的内容；（2）提取数据：我们就可以在拿到的数据中，挑选出对我们有用的数据；（3）存储数据：将挑选出来的有用数据保存在某一文件/...
Python爬虫代码运行出错 python
2022-07-01 13:07

回答 2 已采纳 http错误没有正确处理
Python爬虫代码报错就解答 https python 有问必答
2021-10-23 21:21

回答 1 已采纳 user-agent，不是user_agent，中干线，不是下划线，user-agent打错被反扒检查出来没有正确返回json内容吧
python爬虫图片代码疑问，无报错 python 爬虫
2022-01-03 14:51

回答 2 已采纳 response.encoding = 'utf-8'这是定义字符编码为utf-8，这样爬取出来的数据不会是乱码。不要也可以，但有时候你需要把爬取的数据写入表格中，如果没有定义字符编码的数据，写入表格
Python爬虫中文乱码处理实例代码解析
2023-12-23 20:00

Sitin涛哥的博客在本文中，深入探讨了Python爬虫中处理中文乱码的各种方法，旨在帮助大家解决在网络数据抓取过程中常见的编码问题。这些问题可能导致数据解析不正确，影响到数据质量和可靠性。从明确指定编码、使用第三方库（如...
python爬虫编程习题 python 有问必答
2022-12-20 19:53

回答 6 已采纳兰州博文科技学院 http://www.bowenedu.cn/
【python爬虫】爬虫编程技术的解密与实战
2024-01-26 10:29

SarPro的博客《【Python爬虫】爬虫编程技术的解密与实战》深入剖析了爬虫技术的精髓，并提供了实际应用的实战经验。作者首先解密了Python爬虫编程的关键技术，涵盖了网页解析、数据提取、请求模拟等方面。通过详细而易懂的讲解，...
全网最全！Python爬虫requests库教程(附案例)
2023-07-08 14:15

程序员小麦的博客但需要注意的是，如果返回结果不是 JSON 格式，便会出现解析错误，抛出 json.decoder.JSONDecodeError异常。补充内容，接收字典字符串都会被自动编码发送到 url ，如下： import requests headers = {’User-Agent...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月23日

悬赏问题

¥15 运动想象脑电信号数据集.vhdr
¥15 三因素重复测量数据R语句编写，不存在交互作用
¥15 微信会员卡等级和折扣规则
¥15 微信公众平台自制会员卡可以通过收款码收款码收款进行自动积分吗
¥15 随身WiFi网络灯亮但是没有网络，如何解决？
¥15 gdf格式的脑电数据如何处理matlab
¥20 重新写的代码替换了之后运行hbuliderx就这样了
¥100 监控抖音用户作品更新可以微信公众号提醒
¥15 UE5 如何可以不渲染HDRIBackdrop背景
¥70 2048小游戏毕设项目

python爬虫代码出现错误

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新