Go-从具有已知结构的文档中获取单个特定HTML元素的文本

In a little script I'm writing, I make a POST to a web service and receive an HTML document in response. This document is largely irrelevant to my needs, with the exception of the contents of a single textarea. This textarea is the only textarea in the page and it has a particular name that I know ahead of time. I want to grab that text without worrying about anything else in the document. Currently I'm using regex to get the correct line and then to delete the tags, but I feel like there's probably a better way.

Here's what the document looks like:

<html><body>
<form name="query" action="http://www.example.net/action.php" method="post">
    <textarea type="text" name="nameiknow"/>The text I want</textarea>
    <div id="button">
        <input type="submit" value="Submit" />
    </div>
</form>
</body></html>

And here's how I'm currently getting the text:

s := string(body)

// Gets the line I want
r, _ := regexp.Compile("<textarea.*name=(\"|')nameiknow(\"|').*textarea>")
s = r.FindString(s)

// Deletes the tags
r, _ = regexp.Compile("<[^>]*>")
s = r.ReplaceAllString(s, "")

I think using a full HTML parser might be a bit too much in this case, which is why I went in this direction, though for all I know there's something much better out there.

I appreciate any advice you may have.

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
duandang6111 2014-03-20 21:02
关注
Take a look at this package: https://github.com/PuerkitoBio/goquery. It's like jQuery but for Go. It allows you to do things like

text := doc.Find("strong").Text()

Full working example:

package main import ( "bytes" "fmt" "github.com/PuerkitoBio/goquery" ) var s = `<html><body> <form name="query" action="http://www.example.net/action.php" method="post"> <textarea type="text" name="nameiknow">The text I want</textarea> <div id="button"> <input type="submit" value="Submit" /> </div> </form> </body></html>` func main() { r := bytes.NewReader([]byte(s)) doc, _ := goquery.NewDocumentFromReader(r) text := doc.Find("textarea").Text() fmt.Println(text) }

Prints: "The text I want".
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Go-从具有已知结构的文档中获取单个特定HTML元素的文本 html
2014-03-20 19:50

回答 2 已采纳 Take a look at this package: https://github.com/PuerkitoBio/goquery. It's like jQuery but for Go.
Jsoup中获取已知元素的父元素开发语言
2019-05-15 23:48

回答 2 已采纳 ``` String html=""; Document doc = Jsoup.parse(html); Element ele = doc.getElementById("33")
数据结构已知数组元素下标求存储位置 c语言数据结构
2021-11-05 18:21

回答 1 已采纳 B
前端基础知识点-每天一个基本知识点（100+个前端小知识，你是否都知道？）
2022-02-21 00:25

文默的博客从输入URL到页面展示这中间发生了什么（21/09/11）七、知识点：重排（21/09/12）八、知识点：TCP和UDP（21/09/13）九、知识点：三次握手（21/09/15）十、知识点：绝对和相对定位（21/09/16）十一、知识..
uni-app上已知文件的路径，怎么上传文件 android javascript
2022-03-16 11:02

回答 6 已采纳 android内首先需要读取文件的权限，https://ask.dcloud.net.cn/article/36549然后是uniapp读取本地文件https://www.jianshu.com/p/
object-c计算数组中三个元素的和 objective-c
2021-12-21 11:05

回答 2 已采纳 #import <Foundation/Foundation.h> int main(int argc, const char * argv[]) { double arr[]
已知有向图具有n个顶点判断图中是否存在有向回路 c语言数据结构算法
2022-07-30 16:55

回答 3 已采纳正确的解法应该有两种：1.拓扑2.dfs（深搜）回路的定义这里就不必再说了（毕竟我蒟QwQ）第一种方法是利用了拓扑排序的思想，在拓扑排序的过程中，我们往往需要保证图中没有回路，所以可以利用这个算法的边
前端面试题（HTML、JS、Vue、React、小程序）
2021-11-05 10:35

T_Donna的博客前端面试题HTML && CSSHTML1、Div 里面有个一个div *****2、doctype的作用 *3、link标签和import标签的区别 **HTML51、h5的新特性 ***CSS & CSS31、盒子模型 ****2、弹性布局、浮动布局、table布局 ****...
已知某结点元素值，返回对应结点的指针数据结构
2023-03-02 10:39

回答 1 已采纳 LinkList本身已经是个指针了LinkList *又是个啥东西，所有的LinkList *要替换成LinkList ，*L替换为LgetAdd(L, 2)这里把2写死了又是几个意思总之你这代码问题
数据结构已知数组下标求存储地址 c语言数据结构
2021-11-06 19:18

回答 2 已采纳 6行6列即为 6*6 = 36, 1000 + (36-1)*4 = 1140；没有什么列数减一的说法，只是a［10］［5］的存储空间地址是1000,应该以这个值为起点开始加
已知带头结点的单链表L非递减有序，下列函数实现将L中重复的元素删除，求循环体的写法 c语言数据结构
2022-04-04 15:17

回答 1 已采纳修改如下，供参考： int DelSameX(LinkList L) //修改 { // 将线性表L中重复的元素删除掉，L非递减有序 Node *p; // p指向待处理的链表的第一个结
前端知识总结
2022-11-18 18:06

Var阿隆的博客劣：需要根据设计稿进行基准值换算，在不使用 sublime text 编辑器插件开发时，单位计算复杂 display:none和visibility:hidden的区别 display:none：隐藏元素，在文档布局中不在给它分配空间（从文档中移除），会...
读取文本文件并对所含二维数组的所有元素进行相加 eclipse java 有问必答算法
2022-12-09 20:52

回答 2 已采纳逐行读取文件，用空格拆分，然后进行运算。代码修改如下： import java.io.BufferedReader; import java.io.FileReader; import java.i
前端面经真题解析6:字节-抖音-电商实习（2万字长文）
2023-05-22 11:31

浪里个浪zxf的博客前端面试专栏收录-字节跳动抖音电商前端实习面经与超详细解析
web前端面试题【html+css+js+框架】
2020-08-31 18:08

风不识途的博客文章目录1.http、html和浏览器1.http和https(1)http和https的基本概念(2)http和https的区别？(3)https协议的工作原理(4)https协议的优点(5)https协议的缺点2.tcp三次握手，一句话概括3.TCP和UDP的区别4.WebSocket的...
没有解决我的问题, 去提问

悬赏问题

¥15 将二维数组，按照假设的规定，如0/1/0 == "4"，把对应列位置写成一个字符并打印输出该字符
¥15 NX MCD仿真与博途通讯不了啥情况
¥15 win11家庭中文版安装docker遇到Hyper-V启用失败解决办法整理
¥15 gradio的web端页面格式不对的问题
¥15 求大家看看Nonce如何配置
¥15 Matlab怎么求解含参的二重积分？
¥15 苹果手机突然连不上wifi了？
¥15 cgictest.cgi文件无法访问
¥20 删除和修改功能无法调用
¥15 kafka topic 所有分副本数修改

Go-从具有已知结构的文档中获取单个特定HTML元素的文本

2条回答 默认 最新

悬赏问题

2条回答默认最新