爬虫有没有人告诉我怎么在这里显示加载中用了timesleep等待了一样显示等待和隐式等待都用了


import urllib.request
import requests
import os
from lxml import etree
import re
import time

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}

def spider(base_url,headers):
    data1 = urllib.request.Request(base_url,headers=headers)

    data2 = urllib.request.urlopen(data1).read().decode('gbk')
    print(data2)
    selector = etree.HTML(data2)
    job_list = selector.xpath("/html/body/div[1]/div[2]/div[2]/div[2]/div[1]/div[1]/span")
    print(job_list)
url = "https://search.51job.com/list/010000%252c020000%252c030200%252c040000%252c080200,000000,0121,01,9,99,+,2,99.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare="
spider(url,headers)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-天际的海浪 2021-12-05 01:38
关注
你这个网页中的内容是通过js代码读取外部json数据来动态更新的。
requests只能获取网页的静态源代码，动态更新的内容取不到。
用requests只是获取网页的静态源代码。不会执行页面中的js代码，你用time.sleep()等待是没有用的。
只有用selenium 打开真正的浏览器。才会执行页面中的js代码，用time.sleep()等待才有用。

或者是通过F12控制台分析页面数据加载的链接，找到真正json数据的地址进行爬取。

在页面上点击右键，右键菜单中选 "查看网页源代码"。

这样看到的才是网页的静态源代码。
如果这个网页的静态源代码中有你需要爬取的内容，就说明该页面没有动态内容，可以用requests爬取。
否则就说明该页面的内容是动态更新的，要用selenium 来爬取.

你题目的解答代码如下：

from selenium import webdriver from lxml import etree import time def spider(base_url): driver = webdriver.Chrome() driver.get(base_url) time.sleep(5) data2 = driver.page_source print(data2) selector = etree.HTML(data2) job_list = selector.xpath("/html/body/div[2]/div[3]/div/div[2]/div[4]/div[1]/div/a/p[1]/span[1]/text()") print(job_list) url = "https://search.51job.com/list/010000%252c020000%252c030200%252c040000%252c080200,000000,0121,01,9,99,+,2,99.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=" spider(url)

如有帮助，望采纳！谢谢!
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

爬虫 有没有人告诉我怎么在这里显示加载中用了timesleep等待了一样显示等待和隐式等待都用了 chrome python 有问必答爬虫
2021-12-05 01:29

回答 2 已采纳你这个网页中的内容是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。用requests只是获取网页的静态源代码。不会执行页面中的js代码，
显示等待和隐式等待可以一起用吗？ python
2021-09-08 13:12

回答 1 已采纳 Selenium中的“显示等待”和“隐式等待” - 简书现在越来越多的 web app 使用 AJAX 技术。当一个页面加载到浏览器后，这个页面的很多元素加载的时间可能
python的selenium如何等待整个页面加载完成 python
2019-09-13 17:24

回答 2 已采纳 from selenium.webdriver.support import expected_conditions as EC 我记得有个input = wait.util(EC.presenc
Python爬虫开发学习全教程第二版，爆肝十万字【建议收藏】
2021-10-17 13:35

五包辣条！的博客大家好，我是辣条。上次整理的爬虫教程反响不错，但是还是有小伙伴表示不够细致，今天带了升级版，全文很长，建议先收藏下来。一、爬虫基础爬虫概述知识点：了解爬虫的概念了解爬虫的作用 ...
python在本地运行和腾讯云函数运行结果不一样 python 腾讯云
2022-02-17 16:02

回答 1 已采纳别光显示个error，except里不要空着，写上错误类型，然后把错误类型给result，这样才好调试啊
关于#python#的问题：python爬虫 python 爬虫
2023-04-06 21:17

回答 2 已采纳根据代码片段，您的问题可能出现在XPath表达式上。您在获取评论列表的Xpath表达式中使用了.format(j)，但是您并没有在字符串中使用花括号来表示要替换的值。因此，.format(j)部分被忽
程序在链接文件时报错；显示函数"sum"的隐式声明在C99中无效 c语言
2022-08-16 17:23

回答 3 已采纳换个名称试试
Python爬虫第二课 Selenium介绍和反爬技术
2022-04-27 11:36

办公模板库素材蛙的博客 selenium的介绍知识点：了解 selenium的工作原理了解 selenium以及chromedriver的安装 ... 1. selenium运行效果展示 Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而...我们可以使用selenium很容易
python爬虫爬到331页无法继续 python
2023-03-13 12:46

回答 4 已采纳当前页提取列表数据超出索引，这也不是什么报错，当你列表里面没东西或者索引值超过了列表元素的时候就会出现这个问题，就是你爬到的这页，抓取的这个列表值，里面没东西或者东西太少。所以报错了。建议你换个网站爬
在windows系统内使用php中调用Python文件，路径怎么写返回都为空array。 php python 有问必答
2021-06-28 16:01

回答 1 已采纳你这个py文件执行的结果是插入数据到数据库中，你去检查下数据库有没有新数据就知道了呀
显示实现接口和普通实现接口有什么区别，分别应用于什么场景？
2017-10-20 02:09

回答 1 已采纳目前常用的方式： public interface IReview { void GetReviews(); } public class ShopReview :IReview
python爬虫之selenium4使用(万字讲解)
2024-03-28 02:26

hjc_042043的博客声明以下的例子，只是来作为测试学习，并不作为真正的爬虫我们在浏览一些网站时，有不少内容是通过 JavaScript动态渲染的，或是 AJAX 请求后端加载数据，这其中涉及到了不少加密参数如 token，sign，难以找规律，...
c#主类sum = S.F(n);时显示无法将类型void隐式转换成int，这是啥意思啊我蒙了都开发语言有问必答
2021-04-04 22:35

回答 2 已采纳你把这条语句 public static void F(int m) 改为 public static int F(int m) 在F函数的最后加上return x; 就正常了
Python爬虫
2021-09-30 12:41

_森罗万象的博客 Python爬虫
php爬虫跳过百度验证,python爬虫反反爬虫有绝技，轻松绕开百度人机验证！
2021-03-24 12:21

谢中用的博客你可能已经了解到了无头浏览器的作用以及使用的方法，那么本篇文章就让我们一起用无头浏览器做点事情。是的你没有看错，我们要“搞”的对象就是百度指数这个网站，不知道你平时是否会应用到这里面的数据呢？今天的...
没有解决我的问题, 去提问