如何从运行时生成的网页中提取HTML标记

I am using a SimpleHTMLDOM parser to extract HTML data from web pages. But I came across websites such as www.coursera.com wherein the webpage is generated at runtime.

I need to know has anyone tried parsing such pages?

I am new to this field so some theory on this topic would help my understanding in parsing webpages.

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
duangua5742 2013-03-03 22:04
关注
In this case its probably easier (though not always). The data being used to generate content is likely part of ajax requests you can sent a request to those ajax endpoints directly and parse the response from the endpoint.

Often this will be in JSON, which is quite easy to parse compared to HTML.

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

如何从运行时生成的网页中提取HTML标记 php
2013-03-03 21:57

回答 2 已采纳 In this case its probably easier (though not always). The data being used to generate content is l
HTML运行到浏览器时无故多出一个div html5
2022-06-03 14:20

回答 2 已采纳已解决，是谷歌浏览器的插件导致的。关闭对应的插件即可了
pycharm爬虫生成HTML文件时里面内容中文乱码 pycharm python 爬虫
2022-11-14 00:35

回答 2 已采纳保存时用utf-8编码with open("mybaiodu.html",mode = "w",encoding="utf-8") as f
hext:特定于域的语言，用于从HTML文档中提取结构化数据
2021-05-18 05:40

Hext-从HTML提取数据 Hext是一种特定于域的语言，用于从HTML文档中提取结构化数据。有关，和实时演示，请参见。可以在上找到Hext网站的镜像。 Hext项目是根据Apache License v2.0的条款发布的。例子假设您要从...
html中头标签变为红色，且按回车不会自动生成尖括号 html
2021-12-08 19:55

回答 2 已采纳你这个html标签闭合标签，meta标签最后也没>如有帮助，望采纳 ^.^ 谢谢 <!DOCTYPE html> <html lang="en"> <h
wangEditor富文本编辑器怎么把生成的html标签生成HTML文件上传到云服务器 html5 vue.js 前端
2022-04-07 15:55

回答 1 已采纳使用它的获取html方法editor.txt.html()，然后将内容写入到文件中，后缀修改为html，上传到云服务器，具体可以看这里：https://www.wangeditor.com/doc/p
python从txt中提取关键字所在行，并删除重复项后生成新的txt python
2022-05-16 17:32

回答 1 已采纳尝试用了write函数，但是最终txt文件中只有最后一行数据你这里已经很接近了比如说 with open('save.txt','a') as f1: f1.write('你要写入的数据'
php提取pdf中的文字,如何提取pdf中的文字内容如何从pdf中提取文字
2021-04-22 15:26

weixin_39733232的博客很多人在编辑pdf文件时遇到过无法复制PDF中的文字而头疼不已。通常出现pdf无法复制文字的情况，除了加密的PDF文档(PDF文件中的文字存在两种可能性：其一，文字型PDF，可能是以计算机字符代码的形式被包裹在文件中；...
vscode中关于快速生成未预定义的自定义标签 html 前端
2022-07-07 09:44

回答 1 已采纳 vscode tab键快捷生成元素html标签https://blog.csdn.net/i_am_a_div/article/details/114281599
PHP如何动态地生成部分页面？ html5 mysql php
2019-10-20 15:43

回答 2 已采纳使用ajax异步加载
提取Excel中的内容生成一个TXT文件 c++ c语言 java python
2020-07-07 17:14

回答 4 已采纳楼上说的没用过，知道数据格式，读取excel，我用的还是HSSF或者XSSF
PHP版自动生成文章摘要
2020-10-30 08:59

现内容：截断一段含有HTML代码的文本，但是不会出现围堵标记没有封闭的问题。说明：这是PHP版的，用于在服务器端使用，如果你需要一个客户端版的，请阅读
Spring boot项目运行代码生成类时报错 java spring boot 后端有问必答
2021-11-19 21:40

回答 2 已采纳如果你所报的错是一直刷新出同一个错误，就是说让你声明数据库时区之类的你可以在url后面添加上时区，比如下面的jdbc:mysql://localhost:3306/databaseName?useUn
flickr-fallback-thumbnail:Wordpress 插件使用来自没有缩略图的帖子中的随机标签从 Flickr 中提取一个
2021-07-10 18:24

至少需要：3.0 测试至：4.01 许可证： GPLv2 或更高版本许可证 URI： ://www.gnu.org/licenses/gpl-2.0.html 标签：wordpress、wordpress.org、flickr、缩略图、生成、特色图像稳定标签：20141123 如果您的帖子...
PHP将数据库中的html标签转换到页面显示-Poison
2017-09-26 11:31

PoisonGive的博客其实很简单的，把需要转换的数据提取出来例：$cartdata = htmlspecialchars_decode($data['content']); 输出$cartdata 即可
没有解决我的问题, 去提问

悬赏问题

¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 LiBeAs的带隙等于0.997eV,计算阴离子的N和P
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 来真人，不要ai！matlab有关常微分方程的问题求解决，
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算

如何从运行时生成的网页中提取HTML标记

2条回答 默认 最新

悬赏问题

2条回答默认最新