爬虫时光网出现load104问题

爬虫新手，爬取时光网热映电影想要爬取该电影的上映电影时间，价格，影院，但是不论是直接用request爬取还是PhantomJS爬取，都出现图片中问题，即load104，求大神帮帮忙

爬取网址：http://theater.mtime.com/China_Jiangsu_Province_Nanjing/movie/235701/
第一个图是我爬下来的内容
代码如下

import requests
import codecs
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36',
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'accept-encoding': 'gzip, deflate',
'accept-language': 'zh-CN,zh;q=0.9',
'referer': 'http://theater.mtime.com/China_Jiangsu_Province_Nanjing/',
'Host': 'theater.mtime.com',
}

def get_one_page(url,headers):
try:
response = requests.get(url,headers=headers)
if response.status_code == 200:
return response.text
return None
except RequestException:
return None

def get_detail_onemovie(movid,date,headers):
url='http://theater.mtime.com/China_Jiangsu_Province_Nanjing/movie/'+movid+'/'+date+'/'
print(url)
html=get_one_page(url,headers)
soup = BeautifulSoup(html, 'lxml')
with codecs.open('one_page.txt', 'w', encoding='utf-8') as f:
f.write(soup.prettify())

get_detail_onemovie('235701','20190510',headers)

下面是模拟浏览器的代码

from selenium import webdriver
import codecs
driver = webdriver.PhantomJS()
driver.get('http://theater.mtime.com/China_Jiangsu_Province_Nanjing/movie/256175/20190509/')
with codecs.open('one_page.txt', 'w', encoding='utf-8') as f:
f.write(driver.page_source)
driver.close()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
一只小爪磕新星创作者: 前端开发技术领域 2024-05-26 16:00
关注
本答案由爪磕协同GPT-4o回答，希望对您有所帮助解决问题望采纳！

在爬取时光网时遇到 load104 问题，通常是由于网页内容未能正确加载或加载内容需要JavaScript动态渲染导致的。这种情况下，传统的静态HTML请求可能无法获取到你需要的内容。

为了解决这个问题，你可以使用以下几种方法：

1. 使用无头浏览器

无头浏览器如 Puppeteer 或 Selenium 可以执行 JavaScript 并等待页面完全加载，从而获取动态内容。

使用 Puppeteer

安装 Puppeteer：

npm install puppeteer

使用 Puppeteer 爬取页面：

const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto('https://www.example.com'); // 替换为实际的时光网地址 // 等待特定的元素加载完成 await page.waitForSelector('#cinemaListRegion'); // 获取页面内容 const content = await page.content(); console.log(content); await browser.close(); })();

2. 使用 Selenium

Selenium 也可以用于控制浏览器并获取动态加载的内容。

安装 Selenium 和浏览器驱动（如 ChromeDriver）：

pip install selenium

使用 Selenium 爬取页面：

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 设置 WebDriver 路径 driver = webdriver.Chrome(executable_path='/path/to/chromedriver') # 打开页面 driver.get('https://www.example.com') # 替换为实际的时光网地址 try: # 等待特定元素加载完成 element = WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.ID, 'cinemaListRegion')) ) # 获取页面内容 html_content = driver.page_source print(html_content) finally: driver.quit()

3. 使用请求库（如 requests）与 JavaScript 渲染的结合

如果你知道页面数据是通过某个 API 请求加载的，可以直接请求该 API 接口而不是整个页面。

使用 requests 库请求数据：

import requests url = 'https://www.example.com/api/data' # 替换为实际的 API 地址 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } response = requests.get(url, headers=headers) data = response.json() print(data)

4. 检查网络请求

使用浏览器的开发者工具查看网络请求，查找加载数据的 API 请求地址，并直接请求这些 API 而不是整个页面。

总结

通过使用无头浏览器（如 Puppeteer 或 Selenium）可以有效地处理 JavaScript 动态渲染的内容，确保你能够获取到完整的网页数据。如果发现数据是通过特定的 API 加载的，直接请求 API 也是一种高效的方法。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【计算机毕业设计】基于生成对抗网络的动作与表情一致性动漫角色生成算法系统
2025-09-16 15:22

HaiLang_IT的博客本文探讨了基于生成对抗网络（GAN）的动漫角色生成算法，重点解决动作与表情一致性问题。...不论是对于对深度学习技术感兴趣的同学，还是希望探索机器学习、算法或人工智能的领域的同学，都能提供丰富的资源和灵感。
基于爬虫+人脸识别库实现指定人物自动采集
2020-09-02 23:55

YXHPY的博客基于爬虫+人脸识别库实现指定人物自动采集项目目的，为后面基于GAN的换脸大法做准备更新无需多张照片只需要一张原照就可以了前言如今大数据时代下的深度学习发展的火热，但是总是发现找不到合适的自己的...
[计算机]基于生成式对抗网络的生成动漫人物方法研究
2022-11-18 13:17

HaiLang_IT的博客前言大四是整个大学期间最忙碌的时光,一边要忙着准备考研,考公,考教资或者实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,...
Python生成个人CSDN历史博客文章列表及目录
2023-01-13 16:18

程序媛一枚~的博客使用Python，Matplotlib显示RGB图像解决Python OpenCV 读取视频并抽帧出现error while decoding的问题 Open3D o3dtut怎么导入才不报错使用Python和OpenCV检测图像中的条形码使用Python，OpenCV查找图像中的最...
如何使用AI工具cursor(内置ChatGPT 4o+claude-3.5）
2025-01-01 23:18

风是无色的河的博客在这个快节奏的时代，时间就是金钱，效率...而Cursor作为一款人工智能代码编辑器，基于Claude 3.5 Sonnet以及GPT-4o等模型，可理解代码库并提供实时建议，包括代码补全、语法检查、逻辑纠错等，能显著提高编码效率。
[Python人工智能] 五.theano实现神经网络正规化Regularization处理
2018-06-01 16:25

Eastmount的博客从本系列文章开始，作者正式开始研究Python深度学习、神经网络及人工智能相关知识。前三篇文章讲解了神经网络基础概念、Theano库的安装过程及基础用法、theano实现回归神经网络、theano实现分类神经网络，这篇文章又...
Amazon Generative AI 基于 Amazon 扩散模型原理的代码实践之采样篇(1)
2024-06-24 15:40

2401_84263282的博客想像一下你有一杯墨汁，我们实际上是在用时光倒退（step backwards）的方式；它最初是完全扩散的漆黑墨汁，然后我们会一直追溯到有第一滴墨汁滴入一杯清水的那个最初时分。然后，我们将采样一些额外噪声（extra ...
[Python从零到壹] 七十七.图像识别及经典案例篇之目标检测入门普及和ImageAI对象检测详解
2024-04-28 16:29

Eastmount的博客前文介绍了人脸检测的应用案例，...本文主要介绍目标检测原理，通过七个问题来普及什么是目标检测。然后利用ImageAI实现最简单的目标检测案例，加深读者的印象，本文提供的案例将为读者提供深入的理解，希望您喜欢。
爬虫基础回顾-requests
2021-06-15 15:00

AI悦创Python一对一辅导的博客 1.12 使用代理问题：为什么爬虫需要使用代理让服务器以为不是同一个客户端在请求(示例：百度统计——AI悦创博客) 防止我们真实的地址被泄露，防止被追究。正常请求时没有中间的代理，当有了代理则类似于中间商。...
Python深度学习：从入门到精通
2025-12-07 12:00

幻云2010的博客 人工智能的宏大愿景，又可细分为两个层次：强人工智能（Strong AI）：指的是能够真正拥有自我意识、具备与人类同等甚至超越人类智慧的通用智能体。它能够像人类一样进行抽象思维、解决通用问题、甚至拥有情感和...
没有解决我的问题, 去提问

爬虫时光网出现load104问题

1条回答 默认 最新

1. 使用无头浏览器

使用 Puppeteer

2. 使用 Selenium

3. 使用请求库（如 requests）与 JavaScript 渲染的结合

4. 检查网络请求

总结

1条回答默认最新