富文本转JSON时标签嵌套如何处理？

在将富文本转换为JSON结构时，常需处理HTML标签的嵌套关系。典型问题是：当遇到重叠或非闭合的标签（如 `Hello`）时，如何正确还原层级结构并保证JSON的嵌套逻辑不混乱？若直接按开闭标签匹配，易导致父子节点错位，影响后续渲染。因此，需设计栈结构维护标签层级，并结合容错机制智能闭合或调整嵌套顺序，确保输出JSON语义准确、结构合规。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
小丸子书单 2025-12-04 08:53
关注
一、问题背景与技术挑战

在现代富文本编辑器（如Quill、Slate.js）或内容管理系统中，将HTML片段转换为结构化JSON是常见需求。这种转换的核心目标是保留语义层级和格式信息，以便跨平台渲染或持久化存储。

然而，用户输入的HTML往往存在标签重叠或非闭合情况，例如：

Hello

该片段中第二个标签未闭合，且与前一个形成“重叠”而非“嵌套”，直接使用正则或简单栈匹配会导致JSON结构错乱。

典型错误表现为：子节点被错误地提升为兄弟节点，或闭合顺序混乱导致样式丢失。

二、基础解析模型：基于栈的标签匹配机制

最直观的解决方案是采用**栈结构**来模拟HTML标签的嵌套关系。每当遇到开标签时入栈，闭标签时出栈并构建对应JSON节点。

初始化空栈与根JSON数组
遍历解析后的token流（开标签、闭标签、文本）
开标签 → 创建JSON对象并压入栈顶
闭标签 → 弹出栈顶元素，并附加到父级children中

示例代码如下：

function htmlToJSON(tokens) { const stack = []; const root = { type: 'root', children: [] }; let currentParent = root; tokens.forEach(token => { if (token.type === 'open') { const node = { type: 'element', tag: token.tag, children: [] }; currentParent.children.push(node); stack.push(currentParent); currentParent = node; } else if (token.type === 'close') { if (stack.length) { currentParent = stack.pop(); } } else if (token.type === 'text') { currentParent.children.push({ type: 'text', value: token.value }); } }); return root; }

三、进阶挑战：处理标签重叠与非闭合异常

现实场景中，HTML常包含非法结构，如：

输入HTML 问题类型期望行为
A 标签交叉自动修正为合法嵌套
B 缺失闭合智能补全或截断
C 重复开启合并或分层处理

这些问题若不处理，将导致JSON层级断裂或渲染错位。

四、容错机制设计：智能闭合与栈修复策略

为应对上述异常，需引入以下机制：

标签栈校验：当遇到闭标签但栈顶不匹配时，向上查找最近可匹配项
隐式闭合：对未闭合标签，在文档结束或新块级标签出现时强制闭合
优先级规则：定义标签嵌套优先级（如i允许嵌套于b），避免非法组合

改进后的处理逻辑流程图如下：

graph TD A[开始解析Token] --> B{Token类型?} B -- 开标签 --> C[创建节点，压栈] B -- 闭标签 --> D{栈顶是否匹配?} D -- 是 --> E[弹出栈，附加至父] D -- 否 --> F[查找最近匹配项] F --> G[中间节点强制闭合] G --> E B -- 文本 --> H[附加到当前父节点] E --> I[继续下一Token] H --> I I --> J{是否结束?} J -- 否 --> B J -- 是 --> K[剩余栈中节点隐式闭合] K --> L[输出JSON结构]

五、实际应用中的扩展考量

在真实系统中，还需考虑：

属性继承：某些样式标签可能携带class或style属性，需在JSON中保留
自闭合标签：如 应直接生成leaf节点，不入栈
块级/行内区分：块级元素（如div）影响布局，需特殊处理嵌套边界
性能优化：大规模文档需流式处理，避免内存溢出

此外，可结合AST（抽象语法树）工具如Cheerio或Parse5进行预清洗，再转入JSON生成阶段。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

输入HTML	问题类型	期望行为
`<b><i>A</b></i>`	标签交叉	自动修正为合法嵌套
`<i><b>B</i>`	缺失闭合	智能补全或截断
`<b><b>C</b>`	重复开启	合并或分层处理

报告相同问题？

关注问题

将富文本转为微信小程序richtext组件支持的json格式
2019-08-10 07:18

这样的JSON结构可以嵌套，以表示更复杂的富文本结构。 2. **JavaScript开发** 要将富文本转换为这种JSON格式，通常需要编写JavaScript函数来解析HTML字符串。可以使用DOM操作或正则表达式来实现。例如，我们可以...
PortabaleText：现代内容编辑平台的JSON富文本规范
2025-07-27 22:47

丰雅的博客它基于JavaScript的一个子集，但JSON是独立于语言的文本格式。不过由于其轻量级的特性，其现在被广泛应用于网络数据交换格式。JSON主要由两部分组成：数组（Array）和对象（Object）。数组是由一系列有序的值组成的...
TinyMCE富文本粘贴乱？VibeThinker清理HTML标签
2026-01-06 08:34

蔓红荔的博客本文提出利用轻量级AI模型VibeThinker-1.5B，凭借其对结构化语法的深度理解，智能识别并保留语义标签，清除冗余样式与危险代码，在保证安全的同时实现HTML精准净化，且支持本地部署，成本低、响应快。
图文混排在HTML富文本编辑器中的实现技巧？
2025-04-12 11:23

全武凌(荆门泽优)的博客开发成本帮助企业节省了，如何将WORD图片粘贴到百度富文本编辑器里面，UEDITOR批量上传WORD图片，富文本编辑器实现导入PDF，，百度UEDITOR编辑器复制WORD里面带图文的文章， ueditor是百度的前端开发人员开发的一...
clubhouse-py与Agora集成教程：打造高质量语音聊天体验
2024-09-03 09:02

柏廷章Berta的博客本文将带你全面掌握Portable Text——这一基于JSON的富文本规范，让你彻底摆脱传统富文本处理的种种限制。读完本文你将获得： - 理解Portable Text核心概念与技术优势 - 掌握数据结构解析与自定义扩展方法 - 学会...
深入解析Quill Editor：Delta与Parchment如何革新富文本编辑体验
2025-07-28 02:42

yellow的博客本文深入解析了Quill Editor如何通过Delta数据格式与Parchment文档模型革新富文本编辑体验。Delta将复杂的HTML结构转化为线性、可计算的JSON指令，解决了传统编辑器操作DOM的痛点；Parchment则提供了可扩展的类型...
富文本语法高亮：DreamBerd的HTML标签变量用法
2025-10-13 09:23

强和毓Hadley的博客你是否在寻找一种能让代码同时具备语法高亮和富文本表现力的编程语言？DreamBerd（完美编程语言）通过创新的HTML标签变量系统，让开发者能够在代码中直接嵌入格式化文本，实现视觉与功能的统一。本文将详解这一特性...
31 Java编程中的富文本编辑器
2020-09-13 23:44

youyousg的博客 } 以上是将富文本内的信息插入数据库了,下面是将其内容回显到页面上说明:根据itemId查询商品详情信息,之后封装为对象SysResult返回 ajax页面请求路径说明: // 加载商品描述 $.getJSON('/item/query/item/desc/'+...
JavaScript基础知识-DOM编程-DOM操作、JS数组、JSON 处理
2025-08-08 21:17

给月亮点灯|的博客本文介绍了前端开发中的核心知识点：1. BOM与DOM的关系：BOM(浏览器对象模型)包含DOM(文档对象模型)，BOM的顶级对象是window，DOM的顶级对象是document...4. JSON处理：包括JSON语法、JSON数组、复杂嵌套JSON以及JSON与
构建图文混排富文本编辑器：Java实现与实战
2025-07-28 17:55

如水蜜的博客 富文本编辑器（Rich Text Editor，简称RTE）提供了一种在用户界面上直接输入和格式化文本的直观方式，与早期仅支持纯文本的编辑器（如Notepad）形成对比。RTE支持文本样式、颜色、段落格式、图片和链接等多种功能，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月4日

富文本转JSON时标签嵌套如何处理？

1条回答 默认 最新

一、问题背景与技术挑战

二、基础解析模型：基于栈的标签匹配机制

三、进阶挑战：处理标签重叠与非闭合异常

四、容错机制设计：智能闭合与栈修复策略

五、实际应用中的扩展考量

问题事件

1条回答默认最新