爬虫时光网出现load104问题

爬虫新手，爬取时光网热映电影想要爬取该电影的上映电影时间，价格，影院，但是不论是直接用request爬取还是PhantomJS爬取，都出现图片中问题，即load104，求大神帮帮忙

爬取网址：http://theater.mtime.com/China_Jiangsu_Province_Nanjing/movie/235701/
第一个图是我爬下来的内容
代码如下

import requests
import codecs
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36',
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'accept-encoding': 'gzip, deflate',
'accept-language': 'zh-CN,zh;q=0.9',
'referer': 'http://theater.mtime.com/China_Jiangsu_Province_Nanjing/',
'Host': 'theater.mtime.com',
}

def get_one_page(url,headers):
try:
response = requests.get(url,headers=headers)
if response.status_code == 200:
return response.text
return None
except RequestException:
return None

def get_detail_onemovie(movid,date,headers):
url='http://theater.mtime.com/China_Jiangsu_Province_Nanjing/movie/'+movid+'/'+date+'/'
print(url)
html=get_one_page(url,headers)
soup = BeautifulSoup(html, 'lxml')
with codecs.open('one_page.txt', 'w', encoding='utf-8') as f:
f.write(soup.prettify())

get_detail_onemovie('235701','20190510',headers)

下面是模拟浏览器的代码

from selenium import webdriver
import codecs
driver = webdriver.PhantomJS()
driver.get('http://theater.mtime.com/China_Jiangsu_Province_Nanjing/movie/256175/20190509/')
with codecs.open('one_page.txt', 'w', encoding='utf-8') as f:
f.write(driver.page_source)
driver.close()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

爬虫爬取数据出现编码问题 python 爬虫
2021-08-10 11:17

回答 1 已采纳自行解决了只需要把这个编码换成utf-8就可以了
爬虫数据解析的时候出现的问题？ python 爬虫
2022-12-28 14:44

回答 2 已采纳为什么解码不了，因为返回的是一张图片。。。可以加上这两行看一下 res = requests.get(url = p_url, headers = p_headers) with open('.\\6
python爬虫登录教务网站，怎么解决校园网的问题？ python 爬虫网络
2021-12-01 11:03

回答 2 已采纳教务网站应该只能在内网下访问；你找你们学校的VPN，用爬虫从那个入口进入，应该是可以解决的
Python生成个人CSDN历史博客文章列表及目录
2023-01-15 20:30

程序媛一枚~的博客使用Python，Matplotlib显示RGB图像解决Python OpenCV 读取视频并抽帧出现error while decoding的问题 Open3D o3dtut怎么导入才不报错使用Python和OpenCV检测图像中的条形码使用Python，OpenCV查找图像中的最...
搞过推特爬虫的进，抓取推特出现问题 javascript python 有问必答爬虫
2022-02-08 17:27

回答 2 已采纳对的，失效了，关键词还可以抓
python爬虫网页解析页码遍历时出现问题爬虫
2022-04-23 22:42

回答 1 已采纳这样写 div = ..... if not div: div = ...
如何解决python爬虫问题？ python 人工智能爬虫
2022-08-15 09:11

回答 1 已采纳应该是css选择器里面的规则不够明确，可改成href = selectors.css('div.container div div div ul li a::attr(href)').getall()
基于爬虫+人脸识别库实现指定人物自动采集
2020-09-02 23:55

YXHPY的博客基于爬虫+人脸识别库实现指定人物自动采集项目目的，为后面基于GAN的换脸大法做准备更新无需多张照片只需要一张原照就可以了前言如今大数据时代下的深度学习发展的火热，但是总是发现找不到合适的自己的...
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
pycharm网络爬虫出现错误 python
2021-12-25 23:51

回答 1 已采纳代码都爆红了，爬taobao的文章那么多，可以去参考一下
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
[Python人工智能] 五.theano实现神经网络正规化Regularization处理
2018-06-01 16:25

Eastmount的博客从本系列文章开始，作者正式开始研究Python深度学习、神经网络及人工智能相关知识。前三篇文章讲解了神经网络基础概念、Theano库的安装过程及基础用法、theano实现回归神经网络、theano实现分类神经网络，这篇文章又...
python爬虫数据显示问题 python 爬虫
2022-07-20 16:54

回答 3 已采纳首先，你这里写错了divs = query(".cm-content-box").items()
【毕业设计选题】基于深度学习的健身动作(俯卧撑深蹲仰卧起坐)识别计数系统 YOLO 人工智能 算法
2023-12-21 19:44

HaiLang_IT的博客为解决这些问题，可以将健身体育行业与智能技术融合在一起，帮助完善健身动作的相关工作，例如识别健身动作的名称、评估健身动作的标准以及计算健身动作的数量等。二、算法理论原理 2.1 YOLOv5s模型及改进 YOLOv5...
爬虫基础回顾-requests
2021-06-15 15:00

AI悦创|编程1v1的博客 1.12 使用代理问题：为什么爬虫需要使用代理让服务器以为不是同一个客户端在请求(示例：百度统计——AI悦创博客) 防止我们真实的地址被泄露，防止被追究。正常请求时没有中间的代理，当有了代理则类似于中间商。...
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器

码龄粉丝数原力等级 --

爬虫时光网出现load104问题

0条回答默认最新

悬赏问题

爬虫时光网出现load104问题

0条回答 默认 最新

悬赏问题

0条回答默认最新