如何在Golang中仅从HTML中提取文本？

To extract text from HTML, I use a fully HTML5-compliant tokenizer and parser, like this

    s := `
<p>Links:</p><ul><li><a href="foo">Foo</a><li>
<a href="/bar/baz">BarBaz</a></ul><span>TEXT <b>I</b> WANT</span>
<script type='text/javascript'>
/* <![CDATA[ */
var post_notif_widget_ajax_obj = {"ajax_url":"http:\/\/site.com\/wp-admin\/admin-ajax.php","nonce":"9b8270e2ef","processing_msg":"Processing..."};
/* ]]> */
</script>`

    domDocTest := html.NewTokenizer(strings.NewReader(s))
    for tokenType := domDocTest.Next(); tokenType != html.ErrorToken; {
        if tokenType != html.TextToken {
            tokenType = domDocTest.Next()
            continue
        }
        TxtContent := strings.TrimSpace(html.UnescapeString(string(domDocTest.Text())))
        if len(TxtContent) > 0 {
            fmt.Printf("%s
", TxtContent)
        }
        tokenType = domDocTest.Next()
    }

but I got this result

Links:
Foo
BarBaz
TEXT
I
WANT
/* <![CDATA[ */
var post_notif_widget_ajax_obj = {"ajax_url":"http:\/\/site.com\/wp-admin\/admin-ajax.php","nonce":"9b8270e2ef","processing_msg":"Processing..."};
/* ]]> */

I don't want CDATA content. Some idea, how to get only the text content?

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

dphnn333971 2017-06-09 09:21

关注

As indicated by @Eric Pauley, I look at TextTokens & StartTagTokens. Here is my solution

    s := `
<p>Links:</p><ul><li><a href="foo">Foo</a><li>
<a href="/bar/baz">BarBaz</a></ul><span>TEXT <b>I</b> WANT</span>
<script type='text/javascript'>
/* <![CDATA[ */
var post_notif_widget_ajax_obj = {"ajax_url":"http:\/\/site.com\/wp-admin\/admin-ajax.php","nonce":"9b8270e2ef","processing_msg":"Processing..."};
/* ]]> */
</script>`

    domDocTest := html.NewTokenizer(strings.NewReader(s))
    previousStartTokenTest := domDocTest.Token()
loopDomTest:
    for {
        tt := domDocTest.Next()
        switch {
        case tt == html.ErrorToken:
            break loopDomTest // End of the document,  done
        case tt == html.StartTagToken:
            previousStartTokenTest = domDocTest.Token()
        case tt == html.TextToken:
            if previousStartTokenTest.Data == "script" {
                continue
            }
            TxtContent := strings.TrimSpace(html.UnescapeString(string(domDocTest.Text())))
            if len(TxtContent) > 0 {
                fmt.Printf("%s
", TxtContent)
            }
        }
    }

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

golang去除html的标签，转换成纯文本字符串
2022-12-14 21:13

码云笔记的博客【代码】golang去除html的标签，转换成纯文本字符串。
golang解析html
2016-01-24 22:53

无论是从简单的文本提取到复杂的页面解析，GoQuery都能够胜任。此外，由于GoQuery的设计理念接近于jQuery，因此对于那些熟悉前端开发的开发者来说，学习曲线非常平缓。综上所述，掌握GoQuery不仅可以提升你在...
带你了解前端之HTML超文本标记语言
2022-08-22 20:19

LoisMay的博客详细介绍了前端HTML中大致知识点
提取富文本中的所有图片，匹配获取所有图片链接
2021-11-16 09:41

沙滩上的一颗石头的博客 * 提取富文本中的所有图片 * @param{*} richtext */ export function getImgSrc(richtext) { const imgList = [] richtext.replace(/<img [^>]*src=['"]([^'"]+)[^>]*>/g, (match, capture) => ...
Golang领域RESTful API开发中的常见问题及解决方案
2025-04-30 13:46

Golang编程笔记的博客随着微服务架构的普及，Golang凭借高性能、原生并发和简洁语法，成为API服务开发的首选语言之一。本文聚焦RESTful API开发全生命周期，深度解析设计阶段的资源建模、实现阶段的工程化难题、运行阶段的性能调优及安全...
Golang中BSON与JSON的转换实战指南
2025-06-07 21:59

鸟看世界的博客 Go语言，又称Golang，由Google开发，它自2009年推出以来，凭借其简洁、高效的特点，迅速在现代软件开发中占据了一席之地。Go的核心特性包括：简洁的语法：Go语言拥有类似C的简洁语法，易于阅读和编写。并发模型。
史上最详细的前端HTML、CSS笔记
2024-07-31 00:54

XDJ0115的博客史上最详细的前端HTML、CSS笔记（根据尚硅谷前端视频编写，看这一篇就够了）
用golang在服务端将html转为word（docx）尝试
2019-12-15 21:53

q平面人的博客对于存在数据库表中的html内容，在页面上解析很多支持的前端，小程序端也有专门的解析。可导出到word，不用前端怎么弄？我用goquery+github.com/unidoc/unioffice来尝试一下。将engineercms里的日志尝试导出来。...
从零开始学习 Golang Gorilla：手把手教你搭建 Web 应用
2025-07-23 14:58

Golang编程笔记的博客本文旨在为初学者提供一份全面的Gorilla Web工具包学习指南，从基础概念到实际应用，帮助读者快速掌握使用Gorilla构建Web应用的核心技能。介绍Gorilla工具包及其核心组件详细讲解Gorilla/mux路由器的使用中间件的...
（转）史上最详细的前端HTML、CSS笔记
2024-10-04 21:18

白鹭飞6的博客 height：框架的高度 frameborder：是否显示边框，值：0或者1 双 iframe 标签的实际应用：在网页中嵌入的广告与超链接或表单的target配合，展示不同的内容 HTML实体在 HTML 中我们可以用一种特殊的形式的内容，来...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

如何在Golang中仅从HTML中提取文本？

2条回答默认最新

码龄粉丝数原力等级 --

如何在Golang中仅从HTML中提取文本？

2条回答 默认 最新

2条回答默认最新