从Go中的html页面提取文本

Looking for a way to simply get the text of a web page, preferably without having to resort to a bunch of regular expressions.

Just thought I'd check first in case this kind of thing is already built in, or at least easier to do in Go.

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dttl3933 2014-11-18 01:57
关注
You could use go-query. This lib can be used like jquery to grep text and doc elements from a html document.

This example is taken from the github page:

package main import ( "fmt" "github.com/PuerkitoBio/goquery" "log" ) func ExampleScrape() { doc, err := goquery.NewDocument("http://metalsucks.net") if err != nil { log.Fatal(err) } doc.Find(".reviews-wrap article .review-rhs").Each(func(i int, s *goquery.Selection) { band := s.Find("h3").Text() title := s.Find("i").Text() fmt.Printf("Review %d: %s - %s ", i, band, title) }) } func main() { ExampleScrape() }
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

（前端）（第一章）HTML（超文本标记语言）的基本代码编写
2024-07-30 11:06

今天肚书谁跟！的博客书本教的用VScode，但我用的是pycharm，都行，你能在html文件写代码就行，注意了是html，不是js！！！！那个大纲就别看了，反正12345都写的蛮规矩的，偷个懒，就不写了。
django 实现后台从富文本提取纯文本
2020-12-17 03:11

然而，当需要实现搜索功能时，需要从富文本中提取出纯文本以便进行关键词匹配。本文主要讨论如何在Django后端实现这一功能。 Django本身并没有提供直接从富文本提取纯文本的内置函数，但我们可以利用Python的正则...
带你了解前端之HTML超文本标记语言
2022-08-22 12:19

LoisMay的博客详细介绍了前端HTML中大致知识点
golang去除html的标签，转换成纯文本字符串
2022-12-14 13:13

码云笔记的博客【代码】golang去除html的标签，转换成纯文本字符串。
从零开始学WEB前端——HTML实战练习
2022-02-09 15:11

su_zui的博客在此项目中我会和大家一起从零基础开始学习前端，从后端程序员的视角来看前端，受限于作者的水平本项目暂时只会更新到前端框架VUE，不会涉及node.js。该项目适合零基础的小白或者和我一样开发网站没人写前端所以自学...
正则：从富文本中复制出纯文字
2023-08-11 08:00

sunly_的博客使用正则表示试，实现从富文本中复制出纯文字。
使用VB代码实现WebBrowser控件中选择文本的HTML提取
2024-10-07 07:01

凡狗蛋的博客简介：本文将介绍如何在Visual Basic环境下...文章详细说明了实现过程，并提供了VB源码，展示了如何捕获选中的HTML文本，并处理可能遇到的浏览器安全限制。源码文件可能包含了实际操作代码，而附加文件则可能...
从HTML文件中提取正文的简单方案
2019-10-05 17:01

a13393665983的博客从HTML文件中提取正文的简单方案 ... http://www.basesnet.com/seo/53从HTML文件中提取正文的简单方案2012-03-07/SEO/HTML文件,提取正文,简单方案/1多种基于html正文提取的思想一、基于统计的中文网页正...
提取富文本中的图片路径
2020-09-25 07:58

Dylan Song的博客因项目需要将富文本中的图片路径提取出来找了一些资料 , 记录一下,防止以后用到 // 获取富文本中的图片路径 public List<String> getImgStr(String htmlStr) { List<String> list = new ArrayList&...
正则表达式提取字符串中的数字 - 前端开发
2023-09-24 10:20

后端工程实操的博客在前端开发中，我们经常需要从字符串中提取数字。正则表达式是一种强大的模式匹配工具，可以用于在文本中查找、匹配和提取特定的模式。需要注意的是，上述代码只提取了第一个匹配到的数字。如果你想要提取所有的数字...
没有解决我的问题, 去提问

从Go中的html页面提取文本

1条回答 默认 最新

1条回答默认最新