想做一个网页搜索界面的爬虫，但报错，求解

思路：从搜索界面的elements获取搜索结果目标网页id，得到url列表
问题：1、直接用urllib.request.urlopen获取的html并非elements（“获取网页源代码”和elements不一样）
2、运行如下代码后报错（仅运行了部分代码块）（结果见代码后图片）
3、报错内容显示它甚至打开了同文件夹中其他python代码
期望的最终结果中的网址来自f12-network-response，800ms左右


# coding = utf-8
import selenium
import requests
from lxml import html
from selenium.webdriver import Chrome
from selenium.webdriver.support.select import Select
from selenium.webdriver.chrome.options import Options
import time
import re
import sqlite3
import urllib.error
import urllib.request
from selenium import webdriver
import os
from shutil import copy, rmtree
import random
import xlwt
from bs4 import BeautifulSoup

# chromedriver = r"C:\\Program Files\\Google\\Chrome\\Application\\chromedriver.exe"
# # 设置浏览器
# os.environ["webdriver.chrome.driver"] = chromedriver
# browser = webdriver.Chrome(chromedriver)

opt = Options()
opt.add_argument('--headless')
opt.add_argument('--disable-gpu')

web = Chrome(options=opt)
url = r'https://www.xuexi.cn/dc12897105c8c496d783c5e4d3b680a2/9a75e290b9cf8cb8fb529a6e503db78d.html?page=1&query=%E4%B9%A1%E6%9D%91%E6%8C%AF%E5%85%B4&program_id=1&search_source=6&_t=1644671322317'

web.get(url)
text = web.page_source  # 得到页面element的html代码
etree = html.etree
tree = etree.HTML(text)
dd = tree.xpath('//*[@id="home"]/div/div[3]/div/div[2]/div[1]/div[1]/a')
ee = web.find_elements_by_xpath('//*[@id="home"]/div/div[3]/div/div[2]/div[1]/div[1]/a').text
print(dd)
print(ee)

期望的最终结果（代码+结果）：

# coding = utf-8
import re
import sqlite3
import urllib.error
import urllib.request
import xlwt
from bs4 import BeautifulSoup

response = urllib.request.urlopen(
    r"https://search.xuexi.cn/api/search?size=15&hid=StX393CuVYfmJlIVNmTTKKCh7vIUw7Au&page=1&query=%E4%B9%A1%E6%9D%91%E6%8C%AF%E5%85%B4&program_id=1&pub_time=0&_t=1644718290581")  # 获取网页
bb = (response.read().decode('utf-8'))  # 解析网页
aa = re.findall("\d{15}", bb)  # 从网页中找到连续的大于15位的数字即为子页面id
cc = list(set(aa))  # 将获取到id列表去重
baseurl = 'https://www.xuexi.cn/lgpage/detail/index.html'  # 根url
for item in list(cc):
    url = baseurl + '?id=' + item + '&amp;item_id=' + item  # 将获取的id与根url结合形成目标子页面链接
    print(url)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
m0_46578370 2022-02-13 15:37
关注
你是不是该py文件同目录下没有chromedriver驱动

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python爬虫动态网页爬取报错 python 爬虫
2022-11-22 23:06

回答 2 已采纳 news 数据获取错误 import requests import json url = 'https://www.ptpress.com.cn/newsInfo/getCurrentAffairs
pyThon爬虫多进程报错 python
2022-10-05 08:14

回答 3 已采纳带插件的浏览器，一个配置文件只能打开一个浏览器。想要多进程，需要有多个浏览器配置文件。利用生成器输出配置文件路径，避免多进程用到同一个路径。进程不能太多，不然程序会在某一个进程中卡死不动……没有具体的
python怎么创建一个文件夹,用python创建一个文件夹
2024-06-21 06:02

mutourenhelp的博客要说“语法”层面的简单，的确如此，跟其他编程语言如 C++、Java、PHP、Go 相比，Python语法确实要简单很多，比如完成同一个任务，C语言需要写1000行代码，Java只需要写100行，而Python可能只要20行。
基础爬虫不报错也不下数据 python
2022-07-15 23:48

回答 4 已采纳帮你改好了 ```python import urllib.parse import urllib.request def requert_get(page): first_url
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
python爬虫，请求不报错也不出现想要获取的信息 python 有问必答爬虫
2021-11-05 23:03

回答 2 已采纳在url_dataList中获取的url有的不是网址的完整形式，只是相对路径，需要进行拼接，类似于base_url+rel_url
python爬虫捕鱼网站_Python爬虫从太平洋地震工程研究中心数据库自动下载地震波时程...
2020-11-30 04:17

weixin_39620279的博客 python app开发自动捕鱼"引子——最近小编在沉迷捕鱼之余，扫到了某问答网站里的一个网友提问的标题叫做“Python真的有那么神吗？”，各位被邀嘉宾们针对最近Python热度近年来持续上升并吊打老牌编程语言的现象，...
python爬虫遇到报错 python
2022-09-11 23:38

回答 3 已采纳看样子应该是线程池错误但是你的话，把具体错误截图下，才能看出来你的代码哪里错了
python爬虫Selenium报错 python web安全
2022-09-03 18:37

回答 2 已采纳 find_enment写错了，是find_element
python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了 python 有问必答爬虫
2022-08-17 20:13

回答 5 已采纳可能是访问次数频繁，被禁止访问，解决方法：使用代理 python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-C
加班熬夜一个月，终于把所有Python库整理齐了，祝你早日学成
2022-04-08 16:04

轻松学Python的博客最近天天熬夜，头发都掉完了，就为了把Python所有的库完全整理一遍，希望对大家有所帮助！一、数据处理 Chardet # 字符编码探测器，可以自动检测文本、网页、xml的编码； colorama # 主要用来给文本添加各种颜色...
请问这样的python爬虫Header报错应该怎么办？ python 爬虫
2023-01-17 10:14

回答 2 已采纳 request.get那一行要缩进，放到collect的方法里面去，现在看起来是在方法外面啊！请采纳！！
爬虫教程（ 6 ） --- 爬虫进阶、扩展
2022-07-11 07:35

「已注销」的博客 1. 先看一个最简单的爬虫。 import requests url = "http://www.cricode.com" r = requests.get(url) print(r.text) 2. 一个正常的爬虫程序上面那个最简单的爬虫，是一个不完整的残疾的爬虫。因为爬虫程序通常...
爬虫——爬虫Json.dumps保存多数据失败
2022-12-25 19:46

蒙牛没我牛:)的博客大神来解决一下爬虫的保存json文件问题，保存一页可以，保存多页不行
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月13日

悬赏问题

¥30 STM32 INMP441无法读取数据
¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
¥15 用visualstudio2022创建vue项目后无法启动
¥15 x趋于0时tanx-sinx极限可以拆开算吗
¥500 把面具戴到人脸上，请大家贡献智慧
¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥15 各位帮我看看如何写代码，打出来的图形要和如下图呈现的一样，急
¥30 c#打开word开启修订并实时显示批注
¥15 如何解决ldsc的这条报错/index error
¥15 VS2022+WDK驱动开发环境

想做一个网页搜索界面的爬虫，但报错，求解

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新