在Golang中从HTML提取文本内容

What's the best way to extract inner substrings from strings in Golang?

input:

"Hello <p> this is paragraph </p> this is junk <p> this is paragraph 2 </p> this is junk 2"

output:

"this is paragraph 

 this is paragraph 2"

Is there any string package/library for Go that already does something like this?

package main

import (
    "fmt"
    "strings"
)

func main() {
    longString := "Hello world <p> this is paragraph </p> this is junk <p> this is paragraph 2 </p> this is junk 2"

    newString := getInnerStrings("<p>", "</p>", longString)

    fmt.Println(newString)
   //output: this is paragraph 

    //        this is paragraph 2

}
func getInnerStrings(start, end, str string) string {
    //Brain Freeze
        //Regex?
        //Bytes Loop?
}

thanks

展开全部

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
duanla3319 2014-01-08 08:00
关注
Don't use regular expressions to try and interpret HTML. Use a fully capable HTML tokenizer and parser.

I recommend you read this article on CodingHorror.

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

编辑

预览

报告相同问题？

关注问题

html2text:Golang HTML到纯文本转换库
2021-05-07 11:39

html2text是一个简单的golang包，用于将HTML呈现为纯文本。仍然有很多改进，但是FWIW可以很好地满足我的[HTML]基本HTML-2文本需求。它需要go 1.x或更高版本;）下载包 go get jaytaylor.com/html2text 用法示例...
golang 提取html数据,从网页中提取表格
2021-06-11 20:54

汪国的博客 I would suggest to keep them as list of dataframes and to distinguish the tables, name them with the caption availablelibrary(dplyr)library(rvest)url url %&...%read_html() %>%html_table() %>%se...
golang html 获取纯文本_Golang 性能优化实战
2021-01-14 17:26

请看我简介的博客因此，特别总结一下 golang 后台服务性能优化的方式，并对网关服务进行优化。技术背景：基于 tarsgo 框架的 http 接入服务，下游服务使用 tarsgo 协议进行交互性能指标网关服务本身没有业务逻辑处理，仅作为统一入口...
golang GUI图形界面框架fyne例子删除html源文档中的html标签
2021-08-24 05:05

在本文中，我们将深入探讨如何使用Golang的GUI图形界面框架Fyne来处理HTML文档，特别是从HTML源代码中删除标签。Fyne是一款轻量级、跨平台的库，为开发者提供了一种创建美观且高效的桌面应用的方式。而在这个特定的...
go语言提取html,Golang如何解析Html代码
2021-06-08 23:03

狮心王546的博客 Golang如何解析Html代码用Golang的朋友都知道如果我们要从HTML中提取一些内容、比如title或者是h2在或者是一些其他的HTML的内容、在Golang里面我们如果要自己写代码来提取还是相当的麻烦的；由于我之前在写Pyhon的...
golang html获取内容,goLang爬取html
2021-06-13 19:48

冯爽妹的博客 package mainimport ("fmt""net/http""os""strconv")//爬取网页内容func HttpGet(url string)(result string ,err error){resp , err1 :=http.Get(url)if err1 !=nil{err = err1return}defer resp.Body.Close()//...
doc-extract:Go工具，用于从特殊标记的Go注释中提取文本
2021-04-30 22:56

doc-extract是用于在Go源代码中提取带有特殊标记的注释的工具。带标签的注释以包含+extract的空白行开头。支持分组行注释（ // ）和块注释（ /* */ ）。安装转到1.16和更高版本： go install github....
golang去掉html代码中的标签，只保留纯文本
2023-09-12 07:23

lmy_loveF的博客【代码】golang去掉html代码中的标签，只保留纯文本。
golang 提取html数据,goLang 多线程抓取网页数据-Go语言中文社区
2021-06-11 20:56

gjbgyuhg的博客突然有个想法想用goLang快速的抓取网页数据,于是想到了多线程进行页面抓取package mainimport ("fmt""log""net/http""os""strconv""sync""time")func init() {defer func() {if err := recover(); err != nil {fmt....
swan:Golang中Goose HTML Content Article Extractor算法的实现
2021-04-28 10:25

通过Swan，您可以删除当今许多页面中所有多余的垃圾，从而从任何网页中提取清理后的文本和HTML内容。请查看以获取完整用法和示例。特征几乎所有来源的主要内容提取提取图像中HTML内容获取文章元数据，发布日期等...
没有解决我的问题, 去提问

在Golang中从HTML提取文本内容

3条回答 默认 最新

3条回答默认最新