Python定向爬虫遭遇Angular路由跳转，如何找到目标url链接？

使用爬虫获取在线学习网站课件，目的是通过课程列表url，获取所有课程的课件。由于页面使用Angular实现页面跳转，所以在分析网页源码和异步加载时找不到课件的courseID。前期分析结果如下：

1.课程列表界面和源码

https://nbcb.scho.com:8020/pc/#/scho_home/column_detail?columnId=16132 #课程列表url，通过此链接获取所有课件

图片说明

2.点击课程列表界面的具体课件，鼠标未变成小手一样的图标，仍然是一个箭头。进入点击后进入课件界面：

`

https://nbcb.scho.com:8020/pc/#/scho_home/column_detail #课件界面url未发生变化
`

图片说明

3.课件界面所有http请求如下：

图片说明

4.使用浏览器开发者工具找到目标文件是通过获取图片来组成课件，URL长这样：

https://nbcb.scho.com:8020/file/nbcb/310685/20200928/7D65B3205BA5B9ADDE49317B7E5DB029/out//70.jpg

5.通过页面源代码解析，未找到课程的id：7D65B3205BA5B9ADDE49317B7E5DB029。

但getCourseDetail请求链接的参数中有个CourseID=2405310，返回Json数据中包含7D65B3205BA5B9ADDE49317B7E5DB029。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lshen01 2023-03-16 19:25
关注
参考GPT和自己的思路：

针对您的问题，由于Angular实现页面跳转，使得页面的源代码中无法找到课程的ID，因此需要通过其他方式获取课程ID。

根据您提供的信息，可以尝试通过分析页面的http请求来获取课程ID。具体方法如下：

首先，通过分析课程列表界面和课件界面所有的http请求，可以找到一个请求链接为/api/course/getCourseDetail。该链接包含了当前课程的课程ID参数，可以通过获取该参数来获得当前课程的课程ID。

发送该链接的请求，并获得返回的Json数据。该数据中包含了当前课程的详细信息，其中也包含了课程的课程ID。

根据获得的课程ID构建目标文件的URL。具体地，目标文件的URL可以通过将以下三个部分拼接而成：

baseURL: https://nbcb.scho.com:8020/file/nbcb/
courseId: 从第二步中获得的课程ID
filePath: 从第四步中获得的文件路径

以上三个部分拼接而成的目标文件URL即为所要获取的课程文件的URL。

希望以上答复能够帮到您解决问题。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

现在前端Angular还有必要学习吗？前端框架
2023-02-09 14:15

回答 1 已采纳没必要学了
Angular如何使用Golang和websockets管理URL？ angular websocket
2019-01-03 05:25

回答 1 已采纳 The websocket is opened from the code that is run in your browser, not from the browser directly (
请问angular如何在下拉框默认显示Flase？ angular.js
2018-07-17 13:14

回答 3 已采纳绑定一个 ng-model ，将ng-model 默认值置成 false
Angular路由跳转外部URL
2019-07-01 18:36

ClarenceJohnson的博客 import { Component, OnInit } from '@angular/core'; @Component({ selector: 'redirect', template: 'redirecting...' }) export class RedirectComponent implements OnInit { constructor() { } ...
angular cesium angular typescript 前端
2023-02-19 02:02

回答 2 已采纳这篇博客也许可以解决你的问题👉 ：angular中配置cesium
angular启动项目，前端跨域问题怎么解决 angular.js typescript
2021-06-04 17:54

回答 1 已采纳在进行项目开发过程中，经常会遇到跨域问题，下面就通过一些配置进行解决跨域问题。 1.在项目根目录下进行创建文件 proxy.config.json； { "/": {
使用前后端分离开发，应该直接由页面请求Ajax到后端接口，还是走前端路由请求再返回渲染页面？ ajax angular.js java node.js spring
2020-03-17 16:12

回答 1 已采纳直接使用ajax请求后台json数据，前端使用js处理展示数据。
angular跳转指定页面_angular怎么做前端页面跳转？
2020-12-31 07:13

别摸气球的博客 Angular中每个页面的显示都需要三个要素：页面的代码，控制器和...angular实现前端页面跳转的方法如下：1、首先在主页面中，嵌入模板视图：为当前路由把对应的视图模板载入到布局模板中：同时，在主页中定义一个An...
angular项目打包后top，left，right，bottom会转成inset angular javascript 前端
2022-10-08 17:16

回答 2 已采纳把小米浏览器的ua判断一下吧
angular项目中通知公告无缝滚动 angular.js javascript 前端
2022-10-08 16:09

回答 1 已采纳我使用的也是css属性的动画效果，没有出现咯噔的跳动：思路：设置一条数据的固定高度，通过后端查到的条数*固定高度，进行动画的设置。(可根据效果对数值进行微调) 代码示例：
在使用angular从API获取数据时失败 angular.js typescript 前端有问必答
2022-09-26 15:04

回答 3 已采纳浏览器有跨域问题，接口网址和当前项目端口一样吗？不一样跨域会出错，具体看浏览器开发工具控制台是否报错，网络选项卡的xhr请求状态是否200
angular中的路由跳转及路由传参方法整理
2022-01-09 14:07

无敌喜之郎的博客路由跳转方式总的大概分为两种通过模板链接进行跳转两种写法 <a routerLink="./component-a">跳转a组件</a> <a [routerLink]="['./component-a']" >跳转a组件</a> 定义路由 {path: '...
npm安装依赖时淘宝镜像报angular没有找到，求大神该怎么解决？ angular.js node.js
2019-08-15 15:15

回答 4 已采纳你看看你项目package.json中angular版本的依赖值是不是\registry.npm.taobao.org\angular\download\angular-1.7.8.tgz这个
前端页面路由跳转方式详解
2022-03-30 15:09

实泽有之，无泽虚之的博客本文总结以下几种前端页面路由的跳转方式：1.navigate;2.window.open;3.document.getElementById("a标签id").click();4.routerLink。
angular 路由跳转带参数的两种方法
2021-04-15 09:50

k_e_vi_n的博客第一种：将值拼在url中传递 xxx-routing.module.ts: {path: '6000/:error', component: Exception6000Component} xxx.component.ts let error = this.route.snapshot.paramMap.get('error'); //获取参数 xxx...
没有解决我的问题, 去提问

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog

Python定向爬虫遭遇Angular路由跳转，如何找到目标url链接？

1.课程列表界面和源码

2.点击课程列表界面的具体课件，鼠标未变成小手一样的图标，仍然是一个箭头。进入点击后进入课件界面：

`

3.课件界面所有http请求如下：

4.使用浏览器开发者工具找到目标文件是通过获取图片来组成课件，URL长这样：

5.通过页面源代码解析，未找到课程的id：7D65B3205BA5B9ADDE49317B7E5DB029。

1条回答 默认 最新

悬赏问题

1条回答默认最新