from selenium import webdriver
import time
driver = webdriver.Chrome()
driver.get('https://www.endata.com.cn/BoxOffice/MovieStock/movieShow.html?id=661004')
time.sleep(3)
res = driver.execute_script('''
var res = "";
$.ajax({
url: "https://www.endata.com.cn/API/GetData.ashx",
type: "POST",
data: {
movieId: location.href.match(/id=(\d+)/)[1],
MethodName: "BoxOffice_GetMovieData_Details"
},
dataType: "text",
async: false,
success: function (data) {
res = webInstace.shell(data);
}
});
return res
''')
print(res)
python 爬虫请求不到完整页面内容
20网址:https://www.endata.com.cn/BoxOffice/MovieStock/movieShow.html?id=661004
使用 requests 爬取上述页面,请求不到完整页面内容,之后尝试使用selenium+webdriver 然后beatifulsoup解析的方式来爬取,查看driver.pagesource 还是没有得到完整的页面。
想爬取这个页面的 电影名称、演员、导演等信息,有没有大神帮助解惑?
- 点赞
- 收藏
- 复制链接分享
6条回答
-
采纳
点赞 1 评论 复制链接分享
-
采纳
好了
点赞 评论 复制链接分享 -
采纳
{"Status":1,"Msg":"","Data":{"Table":[{"MovieId":661004,"MovieName":"羞羞的铁拳","MovieEnMovie":"Never Say Die","DefaultImage":"https://images.entgroup.cn/group1/M00/00/BF/wKgASVznzROAGDqzAABwMl3RXa4825.jpg","Genre_Main":"喜剧|21/运动|26/","MovieCountry":"中国|50/","typeid":1,"ReleaseYear":2017,"ReleaseTime":"2017-9-30","ReleaseCountry":"中国|50/","MovieDyan":"张吃鱼 Chiyu Zhang|2279831/宋阳 Yang Song|2175793/","MovieYyuan":"艾伦 Allen Ai|2184152/马丽 Li Ma|9450/沈腾 Teng Shen|2180209/田雨 Yu Tian|1868100/薛皓文 Haowen Xue|1867179/常远 Yuan Chang|2282118/黄才伦 Cailun Huang|2299235/王成思 |2335210/高海宝 Gao Haibao|2282425/高旭东 Gao Xundong|2235446/李海银 Haiyin Li|2361168/杨阳 Yang Yang|26581/龚锐 Gong Rui|2287106/贾金金 |2304279/宋阳 Yang Song|2175793/尹正 Zheng Yin|2188737/王智 Zhi Wang|1869770/","MovieZz":"北京开心麻花影业有限公司 Beijing happy twist film Co.,Lts|159384/天津猫眼文化传媒有限公司 Tianjin Maoyan Media Co.,Ltd |162770/新丽传媒股份有限公司 New Classic Media Corporation|147729/万达影视传媒有限公司 Wanda Media Co., Ltd|147827/横店影视制作有限公司 HG Entertainment Co.,Ltd|140900/大地时代文化传播(北京)有限公司 Dadi Century Films(Beijing)Co.,Ltd|43/北京金逸嘉逸电影发行有限公司 Beijing Jinyi Jiayi Film Distribution Co.,Ltd|169851/捷成世纪文化产业集团有限公司 Jiecheng Shiji Cultural Industry Group Co.,Ltd|168125/上海淘票票影视文化有限公司 Shanghai Tao Piao Piao Entertainment Co.,Ltd |161873/北京市文化投资发展集团有限责任公司 Beijing Culture Investment Group|163934/北京天浩盛世影业有限公司 Beijing Tianhao Shengshi Pictures Co.,Ltd|169359/霍尔果斯开心麻花文化科技有限公司 |172570/锦元素国际传媒北京有限公司 |172571/","MovieFx":"天津猫眼文化传媒有限公司|162770","MovieFxAll":"天津猫眼文化传媒有限公司 Tianjin Maoyan Media Co.,Ltd |162770/华夏电影发行有限责任公司 Huaxia Film Distribution Co.,Ltd|138681/四海电影发行联盟 Sihai Distribution Association|162885/上海电影股份有限公司影视发行分公司 Eastern Mordor|1201/","MovieLanguage":null,"Color":"彩色","Dates":"-","MPAA":"","Runtime":"100min","cnSummary":" 靠打假拳混日子的艾迪生(艾伦饰),和正义感十足的体育记者马小(马丽饰)本来是一对冤家,没想到因为一场意外的电击,男女身体互换。性别错乱后,两人互坑互害,引发了拳坛的大地震,也揭开了假拳界的秘密,惹来一堆麻烦,最终两人在“卷莲门”副掌门张茱萸(沈腾饰)的指点下,向恶势力挥起了羞羞的铁拳。","enSummary":"","2D":1,"3D":0,"IMAX":1,"MovieBj":"张吃鱼 Chiyu Zhang|2279831/宋阳 Yang Song|2175793/","MovieJz":null,"MovieZp":"田甜 Tian Tian|2214224/刘洪涛 Hongtao Liu|2211438/康利 Kang Li|2244034/","InvestScale":4,"SumBoxOffice":220174.9,"RealTimeBox":0}]}}
点赞 评论 复制链接分享 -
采纳
点赞 评论 复制链接分享
-
采纳
{"Status":1,"Msg":"","Data":{"Table":[{"MovieId":661004,"MovieName":"羞羞的铁拳","MovieEnMovie":"Never Say Die","DefaultImage":"https://images.entgroup.cn/group1/M00/00/BF/wKgASVznzROAGDqzAABwMl3RXa4825.jpg","Genre_Main":"喜剧|21/运动|26/","MovieCountry":"中国|50/","typeid":1,"ReleaseYear":2017,"ReleaseTime":"2017-9-30","ReleaseCountry":"中国|50/","MovieDyan":"张吃鱼 Chiyu Zhang|2279831/宋阳 Yang Song|2175793/","MovieYyuan":"艾伦 Allen Ai|2184152/马丽 Li Ma|9450/沈腾 Teng Shen|2180209/田雨 Yu Tian|1868100/薛皓文 Haowen Xue|1867179/常远 Yuan Chang|2282118/黄才伦 Cailun Huang|2299235/王成思 |2335210/高海宝 Gao Haibao|2282425/高旭东 Gao Xundong|2235446/李海银 Haiyin Li|2361168/杨阳 Yang Yang|26581/龚锐 Gong Rui|2287106/贾金金 |2304279/宋阳 Yang Song|2175793/尹正 Zheng Yin|2188737/王智 Zhi Wang|1869770/","MovieZz":"北京开心麻花影业有限公司 Beijing happy twist film Co.,Lts|159384/天津猫眼文化传媒有限公司 Tianjin Maoyan Media Co.,Ltd |162770/新丽传媒股份有限公司 New Classic Media Corporation|147729/万达影视传媒有限公司 Wanda Media Co., Ltd|147827/横店影视制作有限公司 HG Entertainment Co.,Ltd|140900/大地时代文化传播(北京)有限公司 Dadi Century Films(Beijing)Co.,Ltd|43/北京金逸嘉逸电影发行有限公司 Beijing Jinyi Jiayi Film Distribution Co.,Ltd|169851/捷成世纪文化产业集团有限公司 Jiecheng Shiji Cultural Industry Group Co.,Ltd|168125/上海淘票票影视文化有限公司 Shanghai Tao Piao Piao Entertainment Co.,Ltd |161873/北京市文化投资发展集团有限责任公司 Beijing Culture Investment Group|163934/北京天浩盛世影业有限公司 Beijing Tianhao Shengshi Pictures Co.,Ltd|169359/霍尔果斯开心麻花文化科技有限公司 |172570/锦元素国际传媒北京有限公司 |172571/","MovieFx":"天津猫眼文化传媒有限公司|162770","MovieFxAll":"天津猫眼文化传媒有限公司 Tianjin Maoyan Media Co.,Ltd |162770/华夏电影发行有限责任公司 Huaxia Film Distribution Co.,Ltd|138681/四海电影发行联盟 Sihai Distribution Association|162885/上海电影股份有限公司影视发行分公司 Eastern Mordor|1201/","MovieLanguage":null,"Color":"彩色","Dates":"-","MPAA":"","Runtime":"100min","cnSummary":" 靠打假拳混日子的艾迪生(艾伦饰),和正义感十足的体育记者马小(马丽饰)本来是一对冤家,没想到因为一场意外的电击,男女身体互换。性别错乱后,两人互坑互害,引发了拳坛的大地震,也揭开了假拳界的秘密,惹来一堆麻烦,最终两人在“卷莲门”副掌门张茱萸(沈腾饰)的指点下,向恶势力挥起了羞羞的铁拳。","enSummary":"","2D":1,"3D":0,"IMAX":1,"MovieBj":"张吃鱼 Chiyu Zhang|2279831/宋阳 Yang Song|2175793/","MovieJz":null,"MovieZp":"田甜 Tian Tian|2214224/刘洪涛 Hongtao Liu|2211438/康利 Kang Li|2244034/","InvestScale":4,"SumBoxOffice":220174.9,"RealTimeBox":0.0}]}}
点赞 1 评论 复制链接分享 -
采纳
题主使用selenium获得的page_source没有具体内容,是因为网页还没加载出来呢,就开始读取html的page_source了,所以输出来的是未渲染的内容。
只需要简单的sleep两秒,再读取page_source就可以了。
#coding:utf-8 from selenium import webdriver import time import re driver=webdriver.Chrome()#谷歌 driver.get(url='https://www.endata.com.cn/BoxOffice/MovieStock/movieShow.html?id=661004') time.sleep(2) html = driver.page_source title = re.findall('<h3>(.*?)<sub>', html)[0] print("电影名:") print(title) content = re.findall('<dl class="stabcon stabcon1" id="mv-Basic">(.*?)</dl>', html)[0] content = content.split('<dt>')[1:] for each in content: each = each.split('</dt>') category = each[0] lists = re.findall('<a [^>].*?>(.*?)</a>', each[1]) print(category) print(lists)
最后输出这样:
电影名: 羞羞的铁拳 导演 ['张吃鱼 Chiyu Zhang', '宋阳 Yang Song'] 演员 ['艾伦 Allen Ai', '马丽 Li Ma', '沈腾 Teng Shen', '田雨 Yu Tian', '薛皓文 Haowen Xue', '常远 Yuan Chang', '黄才伦 Cailun Huang', '王成思 ', '高海宝 Gao Haibao', '高旭东 Gao Xundong', '李海银 Haiyin Li', '杨阳 Yang Yang', '龚锐 Gong Rui', '贾金金 ', '宋阳 Yang Song', '尹正 Zheng Yin', '王智 Zhi Wang'] 制作公司 ['北京开心麻花影业有限公司 Beijing happy twist film Co.,Lts', '天津猫眼文化传媒有限公司 Tianjin Maoyan Media Co.,Ltd ', '新丽传媒股份有限公司 New Classic Media Corporation', '万达影视传媒有限公司 Wanda Media Co., Ltd', '横店影视制作有限公司 HG Entertainment Co.,Ltd', '大地时代文化传播(北京)有限公司 Dadi Century Films(Beijing)Co.,Ltd', '北京金逸嘉逸电影发行有限公司 Beijing Jinyi Jiayi Film Distribution Co.,Ltd', '捷成世纪文化产业集团有限公司 Jiecheng Shiji Cultural Industry Group Co.,Ltd', '上海淘票票影视文化有限公司 Shanghai Tao Piao Piao Entertainment Co.,Ltd ', '北京市文化投资发展集团有限责任公司 Beijing Culture Investment Group', '北京天浩盛世影业有限公司 Beijing Tianhao Shengshi Pictures Co.,Ltd', '霍尔果斯开心麻花文化科技有限公司 ', '锦元素国际传媒北京有限公司 '] 发行公司 ['天津猫眼文化传媒有限公司 Tianjin Maoyan Media Co.,Ltd ', '华夏电影发行有限责任公司 Huaxia Film Distribution Co.,Ltd', '四海电影发行联盟 Sihai Distribution Association', '上海电影股份有限公司影视发行分公司 Eastern Mordor']
点赞 1 评论 复制链接分享
为你推荐
- Python爬取图片问题
- python
- 2个回答
- python词云出现KeyError问题
- 有问必答
- python
- 3个回答
- python抓取图片无法正常显示
- python
- 1个回答
- 关于Scrapy 框架运行不出结果的问题,好像没有报错
- 正则表达式
- python
- 1个回答
- scrapy框架+formdata+ajax爬取及翻页问题
- 数据挖掘
- python
- 测试用例
- 1个回答
- 求助:python爬取12306车票信息总是出现错误
- python
- 3个回答
- python爬取动态网页时为什么动态网页的url的源码和网页源码不一样?
- 正则表达式
- python
- html5
- 1个回答
- 写爬虫时,需要的html和用requests.get返回的html不一样导致无法进行下一步,请问怎么解决??
- python
- 3个回答
- 爬虫问题(模拟请求不回应?)
- 开发语言
- android
- 微信小程序
- python
- mysql
- 3个回答
- python在post请求下爬取数据,返回的值为什么为空?
- python
- 6个回答
- java抓取雪球数据时连接老是失败,不知道是否被屏蔽还是参数不对
- http
- 抓取
- 爬虫
- jsoup
- 0个回答
- requests 抓取网页信息 为什么获取不到信息?
- 网页爬虫
- 图片
- url
- python
- requests
- 2个回答
- python爬虫移动端评论,浏览器能打开url,但request.get返回内容404,已加header。
- 移动
- 限制访问
- python
- 爬虫
- 浏览器
- 1个回答
- urllib里是否实现了DNS缓存?
- dns
- urllib
- python
- 爬虫
- 3个回答
- python request 库POST请求从ajax爬取数据遇到formdata不会处理了
- ajax
- python
- 爬虫
- 2个回答
- python爬取ashx页面的post请求
- post data
- python
- ashx
- 2个回答
- python 爬虫XHR获取失败
- xhr
- python
- 爬虫
- 2个回答
- python实现推荐系统API,占用cup过高
- 服务器
- api
- 压力测试
- python
- 2个回答
- 关于python 的requests模块post 200却没有返回数据
- requests
- python
- post
- 2个回答
- 模拟登录post数据抓取不到
- python
- 爬虫
- 6个回答