HTML-查找给定标签中的所有子标签

Assume I have a html page that contains something like

<ul class ="good">
    <li>1</li>
    <li>2</li>
    <li>3</li>
</ul>

<ul class ="bad">
    <li>a</li>
    <li>b</li>
    <li>c</li>
</ul>

I want to grab the <li> elements inside the first <ul>. From here I have basically copied (note: edited code per @twotwotwo comment)

page, _ := html.Parse(httpBody)
    var f func(*html.Node)
    f = func(n *html.Node) {
        //fmt.Println("Inside f")
        if n.Type == html.ElementNode && n.Data == "ul" {
            fmt.Println("ul found ->  ",n)
            for c := n.FirstChild; c != nil; c = c.NextSibling {
                f(c)
            }
        } else {
          fmt.Println(n.Data ,"is not the correct one")
          for c := n.FirstChild; c != nil; c = c.NextSibling { f(c) }
          }
    }
f(page)

But the only output I obtain is

 is not the correct one
html is not the correct one
head is not the correct one
body is not the correct one

I wonder why the recursion stops at body. I have tried with motherfuckingwebsite.com which has tags inside the body

P.S. I have also tried

page := html.NewTokenizer(httpBody)

for {
    tokenType := page.Next()
    if tokenType == html.ErrorToken {
        return links
    }
    token := page.Token()

but this seem to show all the tokens, without caring about the tree structure.

EDIT:

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

doukuang1897 2014-10-01 04:33

关注

I have, in the past, used this package: https://github.com/PuerkitoBio/goquery

It provides a "jQuery-like" interface/querying across HTML documents. With that library, its as simple as this:

import (
    "bytes"
    "fmt"
    "log"

    "github.com/PuerkitoBio/goquery"
)

var httpBody string = `
    <ul class ="good">
        <li>1</li>
        <li>2</li>
        <li>3</li>
    </ul>

    <ul class ="bad">
        <li>a</li>
        <li>b</li>
        <li>c</li>
    </ul>
`

func main() {
    b := bytes.NewBufferString(httpBody)
    doc, err := goquery.NewDocumentFromReader(b)
    if err != nil {
        log.Fatal(err)
    }

    doc.Find("ul.good").Each(func(i int, ul *goquery.Selection) {
        ul.Find("li").Each(func(i int, li *goquery.Selection) {
            fmt.Println(li.Text())
        })
    })
}

Which prints:

1
2
3

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

magento - 检索给定类别ID的所有子类别 php
2012-03-21 13:53

回答 1 已采纳 I think the class Mage_Catalog_Model_Category already includes the function you are searching. It
Php在字符串中查找具有给定模式的所有链接 php
2017-09-29 09:49

回答 2 已采纳 You can try this: preg_match_all('/[\'\"](https?\:\/\/[^\'\"]?myhost.com[^\'\"]*)[\'\"]/i', $stri
给定关键字不在字典中。 asp.net c# 后端
2022-04-25 17:37

回答 1 已采纳其他的字段都是小写，你这个是大写，接口字段一般都是同一的
根据url一键爬取前端页面资源文件---小飞兔
2020-12-28 13:52

以上代码实现了一个基本的前端资源爬虫，它可以从给定的URL出发，抓取HTML页面中的脚本和样式表文件。当然，实际的爬虫可能需要处理更复杂的情况，比如处理异步加载的内容、登录验证、反爬机制等。此外，爬虫应遵守...
c++改写函数-用给定字符打印n行，并用主函数调用 c++ 有问必答
2021-11-20 18:39

回答 4 已采纳把双循环部分写到一个函数里就行了啊，参数就是行数
python数字金字塔-给定列表的金字塔怎么写 python
2022-05-05 13:44

回答 1 已采纳望采纳，谢谢！ a = (input('请输入起始和终止数字：')) b = a.split() j=int(b[0]) k=int(b[1])+1 x = [] count = 1 lim = 1
在PHP中查找给定宽度保持比例的图像高度 php
2014-10-23 08:33

回答 1 已采纳 You're calculating the ratio incorrectly. Instead of dividing the new width by the original heigh
百度校园招聘笔试题-WEB前端工程师-电子科技大学
2018-10-26 13:49

根据给定文件的信息，我们可以提炼出以下相关的IT知识点： ### 1. HTML文档的基本结构在一份标准的HTML文档中，有一些必须包含的HTML标签，它们构成了文档的基础框架。这些标签包括： - `<html>`：定义整个HTML...
mysql for excel新建连接给定关键字不在字典中 mysql
2022-12-22 16:05

回答 1 已采纳使用 Excel 插件管理 MySQL ，建议安装 8.0.23 版本，否则由于版本太高导致不兼容， Excel 可能无法连接数据库。
求给定区间的所有素数 c语言
2022-10-19 16:07

回答 2 已采纳你可以参考下这篇文章：输入指定区间求区间中的所有孪生素数对
java中如何将下面的ip按给定地址进行分类 intellij-idea java maven 有问必答
2022-01-07 14:50

回答 4 已采纳写正则
前端学生作业毕设实训素材-html5响应式布局电子产品类企业模板.rar
2022-04-07 22:20

这篇教程将围绕“前端学生作业毕设实训素材——html5响应式布局电子产品类企业模板”这一主题，深入探讨HTML5响应式布局在电子类产品企业网站中的应用，以及如何利用提供的素材进行实践操作。 HTML5是现代网页开发...
jsp中写隐藏td标签_html中隐藏td
2020-12-19 04:07

weixin_39890708的博客 HTML中，一个表格，要达到二个条件：1、内容多了不自动换行；2、固定单元格宽度。如果内容超出，则隐藏；如果在IE下，只是写成<table style="table-layout:fixed; overflow:hidden;"><tr><td nowrap....
一些前端面试题.pdf
2024-06-20 17:42

虚拟DOM是一个轻量级的内存中的DOM树副本，它允许前端框架高效地比较实际DOM与虚拟DOM之间的差异，并仅更新必要的部分，从而提高性能。 ### Tree Shaking Tree Shaking是一种编译时的优化技术，主要用于去除未使用...
前端面试题---html/css
2022-10-07 19:03

无敌培根卷的博客可以用来统一设置当前页面上的超链接的跳转方式标签为页面上的所有链接规定默认地址或默认目标使用了 < base > 标签，则必须具备 href 属性或者 target 属性或者两个属性都具备通常情况下，浏览器会从当前文档的URL...
没有解决我的问题, 去提问

悬赏问题

¥30 Matlab打开默认名称带有/的光谱数据
¥50 easyExcel模板动态单元格合并列
¥15 res.rows如何取值使用
¥15 在odoo17开发环境中，怎么实现库存管理系统，或独立模块设计与AGV小车对接？开发方面应如何设计和开发？请详细解释MES或WMS在与AGV小车对接时需完成的设计和开发
¥15 CSP算法实现EEG特征提取，哪一步错了？
¥15 游戏盾如何溯源服务器真实ip?需要30个字。后面的字是凑数的
¥15 vue3前端取消收藏的不会引用collectId
¥15 delphi7 HMAC_SHA256方式加密
¥15 关于#qt#的问题：我想实现qcustomplot完成坐标轴
¥15 下列c语言代码为何输出了多余的空格

码龄粉丝数原力等级 --

HTML-查找给定标签中的所有子标签

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

HTML-查找给定标签中的所有子标签

1条回答 默认 最新

悬赏问题

1条回答默认最新