Ajax加载网站内容后进行Web爬取

I'm trying to get colly to scrape the following page: https://www56.muenchen.de/termin/index.php?loc=BB.

Here is my code:

package main

import (
    "fmt"
    "log"

    "github.com/gocolly/colly"
)

func main() {
    c := colly.NewCollector(
        colly.IgnoreRobotsTxt(),
        colly.Async(false),
    )

    c.OnHTML("html", func(e *colly.HTMLElement) {
        fmt.Println(e.Text)
    })

    c.OnError(func(_ *colly.Response, err error) {
        log.Println("Something went wrong:", err)
    })

    c.Visit("https://www56.muenchen.de/termin/index.php?loc=BB")

    c.OnScraped(func(r *colly.Response) {
        fmt.Println("Finished")
    })
}

The problem is that after the website is visited it loads some content. I'm unsure how to tell colly to "wait" until that has happened and then look at the result.

Looking forward to some ideas.

展开全部

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
douzhouhan4618 2019-07-14 10:11
关注
It can't since colly would have to do that client-side, but colly does not execute JavaScript - so no Ajax with it.

To simulate a browser you can use selenium or phantomjs as the link above suggests.

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

Ajax数据爬取
2024-12-28 16:40

SunnyRivers的博客 Ajax，全称为 Asynchronous JavaScript and XML，即异步的 JavaScript 和 XML。...这个过程实际上是页面在后台与服务器进行了数据交互，获取数据之后，再利用JavaScript 改变网页，这样网页内容就会更新了。
动态加载网页的爬取-v3.zip
2021-08-23 03:18

随着Web应用程序的发展，越来越多的网站采用AJAX（Asynchronous JavaScript and XML）和其他前端框架，如React、Vue.js或Angular，来实现页面内容的动态加载。这使得网页在用户交互时才获取数据，而不是在页面初次...
WebScraping：使用Beautiful Soup在python中进行Web爬取
2021-02-23 19:27

在进行WebScraping时，务必遵守网站的robots.txt文件规定，并尊重网站的使用条款，避免对服务器造成过大的负担。同时，确保你的爬虫行为符合当地的法律法规。总结来说，Python中的BeautifulSoup是一个强大的工具，...
python爬取网页数据 ajax_如何爬取通过ajax加载数据的网站
2020-11-29 06:06

weixin_39721807的博客目前很多网站都使用ajax技术动态加载数据，和常规的网站不一样，数据时动态加载的，如果我们使用常规的方法爬取网页，得到的只是一堆html代码，没有任何的数据。请看下面的代码：url = '...
动态网页爬取 —— ajax 与 selenium
2024-11-16 13:54

Cooku Black的博客动态网页（Dynamic Web Page）是指网页的内容能够根据用户的请求、用户的行为或其他条件动态生成和变化的网页。与静态网页不同，动态网页不是预先存储好的固定内容，而是在用户访问时通过服务器端的处理或客户端的...
python中selenium中使用ajax_python+pyquery+selenium 爬取ajax界面内容和加载问题
2020-12-01 11:14

weixin_39922394的博客 python爬虫遇到有翻页和ajax页面时用selenium操作更方便点，也有pyquery库解析页面资源，可以达到持续爬取界面的数据；一 selenium操作浏览器from selenium importwebdriverfrom selenium.webdriver.common.by ...
java基础WEB项目JSP+SERVLET+ajax+ECHART，使用PYTHON爬取网页数据
2023-12-27 13:19

该项目是一个基于Java Web技术的实践应用，主要涵盖了JSP、Servlet、Ajax以及ECharts等关键组件，同时结合Python进行网页数据爬取。这个综合性的项目旨在帮助开发者掌握Web开发的基本流程，以及如何利用数据分析和...
ajax 异步加载页面,爬虫实例—ajax异步（动态）加载的页面信息爬取
2021-08-05 04:13

烨轩的博客 ajax_web_parser.py'''数据为动态加载(ajax，使用js控制数据)鼠标滚动(下拉)数据自动显示在页面通过观察在加载是url的变化，构造出urlurl:ttps://knewone....获取返回的返回的res...
爬虫：Ajax数据爬取
2022-01-03 08:58

Amae的博客目录 1、什么是Ajax 1.1 实例的引入 1.2 基本原理 2、Ajax分析方法 1、查看请求 ...3、Ajax结果提取 ...我们在用 requests 抓取页面的时候，得到的结果可能和在浏览器中...JavaScript 处理数据后生成的结果，这些数据的.
爬取网站职位_爬虫_爬取拉勾网_拉勾网_职位_
2021-10-03 05:40

2. **动态加载页面处理**：现代网页往往使用Ajax技术动态加载内容，这给爬虫带来了挑战。拉勾网可能也采用了这种技术，因此，开发者可能需要利用如Selenium这样的工具模拟用户交互，等待页面完全加载后再进行抓取。 ...
没有解决我的问题, 去提问

Ajax加载网站内容后进行Web爬取

1条回答 默认 最新

1条回答默认最新