练不出腹肌不改头像 2019-10-04 09:38 采纳率: 0%
浏览 2788

爬虫为什么只能爬到一部分内容?

python爬虫爬取猫眼电影Top100,每一页有10个电影,但是爬虫只能爬取第一个,后面都爬不到不止是为什么
代码如下,大神帮忙看看,感激不尽
import requests
from requests.exceptions import RequestException
import re
def get_one_page(url):
try:
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'}
response=requests.get(url,headers=headers)
if response.status_code==200:
return response.text
return None
except RequestException:
return None

def parse_one_page(html):
pattern=re.compile('

.*?board-index-1">(\d+).*?data-src="(.*?)".*?/>.*?name">(.*?)'+
'.*?star">(.*?).*?releasetime">(.*?).*?integer">(.*?).*?fraction">(.*?).*?
',re.S)
items=re.findall(pattern,html)
print(items)

def main():
url='http://maoyan.com/board/4?'
html=get_one_page(url)
parse_one_page(html)

if name=='__main__':
main()

结果显示
C:\Users\Administrator\python37\python.exe C:/Users/Administrator/PycharmProjects/Maoyantop100/spder.py
[('1', 'https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c', '霸王别姬', '\n 主演:张国荣,张丰毅,巩俐\n ', '上映时间:1993-01-01', '9.', '5')]

Process finished with exit code 0

  • 写回答

1条回答 默认 最新

  • threenewbee 2019-10-04 09:42
    关注

    可能是ajax异步加载的,建议你用f12抓包看下,加载更多的数据是请求的什么地址,什么参数,程序照着模仿

    评论

报告相同问题?

悬赏问题

  • ¥30 求一段fortran代码用IVF编译运行的结果
  • ¥15 深度学习根据CNN网络模型,搭建BP模型并训练MNIST数据集
  • ¥15 lammps拉伸应力应变曲线分析
  • ¥15 C++ 头文件/宏冲突问题解决
  • ¥15 用comsol模拟大气湍流通过底部加热(温度不同)的腔体
  • ¥50 安卓adb backup备份子用户应用数据失败
  • ¥20 有人能用聚类分析帮我分析一下文本内容嘛
  • ¥15 请问Lammps做复合材料拉伸模拟,应力应变曲线问题
  • ¥30 python代码,帮调试,帮帮忙吧
  • ¥15 #MATLAB仿真#车辆换道路径规划