爬虫拼接的url打开之后和超链接中不一样

在漫画网站的目录部分点进去一个章节返回正常的页面

获取这个章节的href拼接成url之后按照这个链接却是另外一个样子，所有图片都加载不出来

用爬虫去获取页面的html也和原来不一样

漫画的链接是http://www.qiman6.com/12693/

爬虫获得的图片链接是'http://www.qiman6.com/images/loading_bak.png'之类的

正确的链接是这样的"https://p.pstatp.com/origin/pgc-image/308d526996464348a134c29399e65ca2"

我的源码：

import requests
from lxml import etree
from selenium import webdriver
from pyquery import PyQuery as pq
import time
import pyperclip

# //*[@id="page_01"]/div/img
# //*[@id="page_02"]/div/img
head={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'}
browser  = webdriver.Chrome()
browser.get('http://www.qiman6.com/12693/')
browser.find_element_by_xpath('//*[@id="chapterlistload"]/div[2]/span').click()
time.sleep(1)
browser.find_element_by_xpath('//*[@id="chapterList"]/div[2]/a').click()
time.sleep(1)
_html=browser.page_source
html=etree.HTML(str(pq(_html)))
links=html.xpath('//*[@id="chapter-list1"]/a/@href')
text=html.xpath('//*[@id="chapter-list1"]//a/text()')
print(text)
print(len(text))
print(links)

for index,i in enumerate(links):
    # new_res=requests.get(f'http://www.qiman6.com{i}',headers=head)
    # new_res.encoding='utf-8'
    # new_html = etree.HTML(new_res.text)
    # new_links=new_html.xpath('//*[@id="mainView"]/ul//img')
    # print(index,f'http://www.qiman6.com{i}',new_res.status_code)
    # print(new_links)
    # result = new_html.xpath('')

    browser.get(f'http://www.qiman6.com{i}')
    js = "var q=document.documentElement.scrollTop=100000"
    browser.execute_script(js)
    browser.execute_script(open('jquery.min.js',encoding='utf-8').read())
    browser.execute_script(open('lazyloadimg2.js',encoding='utf-8').read())
    browser.execute_script(open('q2.js',encoding='utf-8').read())
    browser.execute_script(open('qmw.js',encoding='utf-8').read())
    src=browser.find_elements_by_xpath('//*[@id="mainView"]/ul//img')
    print([x.get_attribute('src') for x in src])
    time.sleep(1)
    # print(browser.page_source)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-Time 2021-05-16 13:22
关注
建议检查一下url,一般是不会出现页面和爬取的数据不相符这种情况的

我看了一下，这个页面加载的时间可能比较久，所以建议sleep久一点。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

爬虫拼接的url打开之后和超链接中不一样 python 有问必答
2021-05-16 13:21

回答 2 已采纳建议检查一下url,一般是不会出现页面和爬取的数据不相符这种情况的我看了一下，这个页面加载的时间可能比较久，所以建议sleep久一点。
python爬虫的时候想提取URL但是提取不全 python 爬虫
2022-09-19 00:24

回答 3 已采纳是被你的过滤条件过滤了吧，检查一下过滤条件： import bs4 as bs import urllib.request source = urllib.request.urlopen("https
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
[python爬虫] selenium爬取局部动态刷新网站（URL始终固定）
2018-04-26 11:18

Eastmount的博客某网站数据显示如下图所示，当点击“第五页”之时，其URL始终不变，传统的网站爬取方法是无法拼接这类链接的，所以本篇文章主要解决这个问题。本文主要采用Selenium爬取局部动态刷新的网站，获取“下一页”按钮实现...
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
爬虫如何在url中加入变量？ python 爬虫
2021-08-14 09:34

回答 4 已采纳 f 在字符串外面 a = input() url = f'https://movie.douban.com/top250?start={a}&filter=' 或者 a = 'abc' b = '
用python爬取小说时，拼接url类型错误 python
2022-01-10 18:52

回答 1 已采纳 li_url = "https://www.shicimingju.com" + link.xpath('./a/@href')[0] 这样子就行了
Python爬虫（一）——爬取古诗文网，初识什么是爬虫
2019-12-09 23:45

创客老师Apple的博客首先来说下什么是爬虫，按照百度百科的说法是：是一种按照一定规则，自动抓取万维网信息的程序或者...这里需要说的一点是，爬虫并不是python的专利，用其他的语言也是可以做到的，只是因为python提供了很多方便我...
python爬虫然后把数据保存到csv中但是爬不到内容 python 爬虫
2021-11-14 14:52

回答 1 已采纳这样就可以了 import requests import csv r_header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win
为什么python爬虫的结果存储不到MySQL中？ mysql python
2022-06-21 19:56

回答 2 已采纳可能你根本没爬取到
Python Ajax爬虫请求url与原网址一样，预览有数据，但是爬不到 ajax python 有问必答
2021-09-27 20:50

回答 2 已采纳反扒可能判断了Referer来源，一起加上试试。还有ajax请求会附带X-Requested-With: XMLHttpRequest请求头，最好一起带上
python是网络爬虫吗_Python网络爬虫
2020-12-15 08:56

weixin_39805529的博客爬虫简介•网页爬取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。•请求网站并提取数据的自动化程序爬取网页的基础知识-HTTP协议1.HTTP协议简介超文本传输协议是一种用于分布式、协作式和超媒体...
Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
python3 爬虫新手笔记（一）：Beautiful Soup、Scrapy尝试
2019-03-08 10:37

Letitia96的博客文章目录python3 爬虫新手笔记（一）：Beautiful Soup、Scrapy尝试一. python爬虫架构二. Beautiful Soup 介绍三. Scrapy 介绍1. 编写Spider2. Selectors选择器3. 将数据保存到MySQL4. Scrapy中的去重5. 遇到的问题...
Python基础知识学习笔记
2023-10-11 22:35

小小程序媛(*^▽^*)的博客内容介绍：Python是一个功能很强大的工具，也是我现在读研阶必须要掌握的一门语言。所以先将Python的基础知识和...现在其实还不是很全，有一些比较不常用或者还没有遇到的知识点会随着后面的学习逐渐添加进来。
没有解决我的问题, 去提问

悬赏问题

¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料

爬虫拼接的url打开之后和超链接中不一样

2条回答 默认 最新

悬赏问题

2条回答默认最新