go colly如何用协程爬取视频

我用go colly仿照一个python的视频爬取教程，写了一个go的视频爬取程序，然后稍稍改造了一下，用来爬取某站的合集视频，但是爬取速度不太让人满意，一次只能爬取一个视频，大家能不能 用goroutine改写一下 ，用多个协程，增加爬取速度？

我的go语言入门还不深，我试过给主函数加协程，但是每次都还是只能爬取两个链接，不知道为什么，也试过用协程来同时爬取音频视频，但是我的方法也不对

改一下对应位置应该能用的

package main

import (
    "bookCrawler/collyTry/06test/crawler"
    "fmt"
    "strconv"
)

func main() {
    url := "https://www.bilibili.com/video/把这串中文替换为合集视频的BV号?p="
    for i := 1; i <= 合集数量; i++ { // 用于循环爬取具有合集的某站视频
        fmt.Println("正在处理第", i, "个文件")
        fmt.Println(crawler.Response(url + strconv.Itoa(i)))
    }
}

package crawler

import (
    "encoding/json"
    "fmt"
    "github.com/gocolly/colly/v2"
    "os"
    "os/exec"
    "regexp"
)

// Response response 访问解析链接
func Response(url string) string {
    c := colly.NewCollector(
        colly.UserAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60"))
    re := regexp.MustCompile(`window.__playinfo__=(.*?)}`)
    var title string

    c.OnHTML("title", func(e *colly.HTMLElement) {
        title = e.Text[:len(e.Text)-22]
        fmt.Println(title)
    })

    c.OnHTML("script", func(e *colly.HTMLElement) {
        match := re.FindStringSubmatch(e.Text) // 用正则表达式匹配palyinfo
        if len(match) > 1 {
            //fmt.Println(e.Text)
            fmt.Println()
            var data map[string]interface{}
            q := []byte(e.Text)
            q = q[20:] // 删去不需要的内容来转化为json格式
            err := json.Unmarshal(q, &data)
            if err != nil {
                fmt.Println("发现错误：", err)
            }
            // 分别提取音频和视频链接
            audioUrl := data["data"].(map[string]interface{})["dash"].(map[string]interface{})["audio"].([]interface{})[0].(map[string]interface{})["baseUrl"]
            videoUrl := data["data"].(map[string]interface{})["dash"].(map[string]interface{})["video"].([]interface{})[0].(map[string]interface{})["baseUrl"]
            // 下载文件
            download(videoUrl.(string), audioUrl.(string), title, c)
        }
    })
    if err := c.Visit(url); err != nil {
        fmt.Println("cVisit访问页面链接失败：", err)
    }
    c.Wait()
    return url + "finished"
}

// download 下载文件
func download(videoUrl string, audioUrl string, title string, c *colly.Collector) {
    d := c.Clone()
    // 防盗链
    d.OnRequest(func(r *colly.Request) {
        r.Headers.Set("Referer", "https://www.bilibili.com")
    }) // On scraped response
    d.OnScraped(func(e *colly.Response) {
        fmt.Println("Downloading:", e.Request.URL.String())
        if e.Request.URL.String() == audioUrl {
            if err := e.Save(title + ".mp3"); err != nil {
                fmt.Println("mp3保存失败：", err)
            }
        } else {
            if err := e.Save(title + ".mp4"); err != nil {
                fmt.Println("mp4保存失败：", err)
            }
        }
    })
    if err := d.Visit(videoUrl); err != nil {
        fmt.Println("访问视频失败：", err)
    }
    if err := d.Visit(audioUrl); err != nil {
        fmt.Println("访问音频失败：", err)
    }
    d.Wait()
    merge(title)
}

// merge 合并文件
func merge(title string) {
    mp3File, mp4File := title+".mp3", title+".mp4"
    outputFile := "video/" + title + "_.mp4"
    cmd := exec.Command("ffmpeg", "-i", mp4File, "-i", mp3File, "-c:v", "copy", "-c:a", "aac", "-strict", "experimental", outputFile)
    fmt.Println("ffmpeg程序开始运行")
    err := cmd.Run()
    if err != nil {
        fmt.Println("Error:", err)
        return
    }
    if err := os.Remove(mp3File); err != nil {
        fmt.Println("删除mp3失败：", err)
    }
    if err := os.Remove(mp4File); err != nil {
        fmt.Println("删除mp4失败：", err)
    }
    fmt.Println(title, " Success")
}

另外，大家对用chatgpt改代码有没有什么意见呀

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
雾满拦江I 2023-04-19 16:09
关注
可以使用goroutine和channel来改写这个程序,提高爬取速度。具体可以这样做:

定义一个channel,用于协调不同goroutine间的工作,比如:
go
ch := make(chan string, 10) // 容量为10的channel
在主函数中启动多个goroutine去爬取视频,并通过channel发送爬取完成的链接:
go
for i := 0; i < 10; i++ { // 启动10个goroutine
go func(i int) {
url := "<https://www.bilibili.com/video/BV号?p=" + strconv.Itoa(i) ch <- crawler.Response(url) // 发送完成url到channel
}(i)
}
在主函数中通过遍历channel获取各个goroutine发送过来的完成链接,并进行后续处理:
go
for i := 0; i < 10; i++ { // 从channel接收10个链接
url := <-ch
fmt.Println(url + " finished")
}
在crawler.Response函数中使用协程安全的Collector,以免多个goroutine同时访问:
go
c := colly.NewCollector(
// 其他配置...
colly.Async(true), // 协程安全模式
)
在download函数中也采用协程安全的d.Visit访问链接,否则会报错。
这么改写后,程序可以同时启动多个goroutine爬取视频,并通过channel进行同步,大大提高爬取效率。
如果您在理解或实践中有任何问题,欢迎提出,我会继续解答。希望这些改写建议能帮助您解决视频爬取速度慢的问题。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

go colly如何用协程爬取视频 golang 爬虫
2023-04-18 19:17

回答 2 已采纳可以使用goroutine和channel来改写这个程序,提高爬取速度。具体可以这样做: 定义一个channel,用于协调不同goroutine间的工作,比如:goch := make(chan st
GoColly为每个请求设置代理
2019-09-02 09:26

回答 1 已采纳 Instead of setting ProxyURL in the callback function, have you tried setting it on the collector ?
使用gocolly抓取时如何在html表格单元格中保留换行符
2018-09-07 06:05

回答 2 已采纳 As far as I know gocolly does not support such formatting, but you can basically do something like
GoColly：打造高效、智能的网页爬取利器，掌握数据世界的钥匙
2024-01-20 15:35

代码炼金术的博客这只是 Colly 的基本用法示例，您可以根据自己的需求使用更多的 Colly API，例如设置请求头、处理 Cookie、处理表单提交等。通过 Colly 的灵活性和丰富的功能，您可以编写出强大的网络爬虫和数据抓取程序。通过项目...
限制gocolly一次处理有限数量的网址
2018-06-29 03:02

回答 1 已采纳 OnRequest is done before the request is actually sent to the server. Your debug statement is misle
使用BeautifulSoup或golang colly解析HTML时遇到问题 python
2018-07-12 07:23

回答 1 已采纳 It looks to me like the HTML is actually commented out, so that's why BeautifulSoup can't find it.
go.mod在修订版v2.0.0上具有后v2模块路径
2019-07-04 17:07

回答 1 已采纳 A number of packages were outdated, the main fix was to run the new install command for gin-jwt, g
（golang)HTTP基本认证机制及使用gocolly登录爬取
2019-04-22 11:21

kongslly的博客内网有个网页用了HTTP基本认证机制,想用gocolly爬取，不知道怎么登录，只好研究HTTP基本认证机制参考这里：https://www.jb51.net/article/89070.htm 下面开始参考作者dotcoo了：－）看了<<http权威指南&...
Ajax加载网站内容后进行Web爬取
2019-07-14 16:53

回答 1 已采纳 It can't since colly would have to do that client-side, but colly does not execute JavaScript - so
go mod中第一行 moudle 文件名处报错,报错内容显示go: errors parsing go.mod以及unknown directive: moudle golang 有问必答爬虫
2021-11-30 16:21

回答 2 已采纳你的go.mod文件是怎样创建的，有没有执行go mod init xxx，，xxx是你项目文件夹名称，而且你go mod文件的module写错了，建议用go mod init xxx创建你的go.m
Go中每个处理程序方法的并发连接数 http
2019-04-19 14:36

回答 1 已采纳 One way could be to approximate this number by explicitly counting the number of concurrent invoca
Go语言实战-爬取整部小说
2021-06-06 21:30

FootMark.run的博客 Go语言的魅力这里就不多说了，这接上代码？先简单介绍下爬虫用到的第三方库： github.com/gocolly/colly：轻量而又强大的爬虫框架； github.com/PuerkitoBio/goquery：Go语言版的jQuery； github....
使用go mod下载时，什么会导致“模式匹配任何模块依赖性”？
2019-04-22 01:31

回答 3 已采纳 Try enabling go modules. This works for me with go 1.12 GO111MODULE=on go mod download Note: If
介绍一个基于 Go 语言的爬虫框架 colly
2022-10-12 21:52

VIP_CQCRE的博客很高兴又和大家见面了，国庆假期马上就要结束了，在国庆假期里小编看了下colly框架，故这篇文章中将提到colly的使用及分析；欢迎各位读者多多阅读与交流！特别声明：本公众号文章只作为学术研究，不作为其它不法用途...
Github每日精选（第75期）：colly 爬取网站所有的数据
2022-12-14 08:55

go2coding的博客对于一个爬取网站的程序，需要注意几点东西，程序能够自动的获取该爬取的网站，不断的探测下去，把整个网站都全部爬取完成。，您可以轻松地从网站中提取结构化数据，这些数据可用于广泛的应用，如数据挖掘、数据处理...
「GoCN酷Go推荐」Go 语言爬虫神器 gocolly/colly
2021-10-26 11:24

Go中国的博客推荐背景日常业务开发中常会遇到一些采集整理互联网数据信息的业务需求，单纯靠人力进行信息采集，不仅低效繁琐，搜集的成本也会提高，此时就用爬虫手段来对数据进行自动采集降低完成业务所需的人力成本...
Go 爬虫之 colly 从入门到不放弃指南
2022-04-01 08:20

Seekload的博客最近发现知乎上感兴趣的问题越来越少，于是准备聚合下其他平台...概要介绍colly 是 Go 实现的比较有名的一款爬虫框架，而且 Go 在高并发和分布式场景的优势也正是爬虫技术所需要的。它的主要特点是轻量、快速，设...
Go colly 爬虫学习 annie视频下载工具
2020-07-08 22:59

yuemake999的博客文章目录annie使用官方文档Go 搭建服务器与停止服务器 annie使用标签修改下载路径以及名称 annie -O 台湾 -o taiwan http://www.iqiyi.com/v_19rvn6n67c.html 官方文档 http://go-colly.org/docs/examples/basic/ ...
Go爬虫colly官方示例十一【max_depth】- 设置爬取页面的深度
2021-01-07 20:01

BigManing的博客文章目录示例介绍示例代码输出增加深度...使用colly.MaxDepth(1) 设置爬取页面的深度示例代码示例中设置深度为1： package main import ( "fmt" "strings" "github.com/gocolly/colly/v2" ) func main() { /
Golang高效爬虫库colly
2023-03-28 22:23

小马儿学Go的博客其中colly.colly.NewCollector()创建了一个收集器，c.Visit(“http://go-colly.org/”)是要爬取的网址，c.OnHTML是爬取html后的回调函数拿到dom节点中内容，c.OnRequest是请求之前输出请求相关信息 2.来一个爬取百度...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月18日

悬赏问题

¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改

go colly如何用协程爬取视频

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新