我的爬虫得到的是空内容

本来我是打算得到十个最火的图片但是在加粗的地方出现了问题，得到的是空的数组（大概），我不太清楚应该怎么改，欢迎各位指正

def main():
    baseurl = "https://stock.tuchong.com/topic?topicId=50344&from=%E7%B2%BE%E9%80%89%E5%9B%BE%E9%9B%86-%E4%B8%8B%E8%BD%BD%E6%8E%92%E8%A1%8C-%E5%AD%A3%E5%BA%A6%E6%A6%9C%E5%8D%95"
    datalist = getDate(baseurl)

findImgSrc = re.compile(r'<a href="(.*?)">')
def getDate(baseurl):
    datalist = []
    html = askURL(baseurl)
   ** soup = BeautifulSoup(html,"html.parser")
    link = re.findall(findImgSrc,str(soup))[10]
    print(link)**
def askURL(baseurl):
    head = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36"}
    request = urllib.request.Request(baseurl,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html
if __name__ =="__main__":
    main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

CSDN专家-showbo 2022-01-25 14:25

关注

图片是js解析后生成的，并不是被反扒了

request得到的源代码和浏览器解析的后不一样，数据在页头js变量goods中

主要用到image_id变量，组成成图片地址为

//cdn6-banquan.ituchong.com/weili/smh/{image_id}.webp

链接地址

https://stock.tuchong.com/image/detail?imageId={image_id}&platform=image&term=&requestId=&searchId=&page=1&entryFrom=%E4%B8%93%E9%A2%98%E5%88%97%E8%A1%A8&index=29

代码如下

import re
import urllib.request, urllib.error
import json
def main():
    baseurl = "https://stock.tuchong.com/topic?topicId=50344&from=%E7%B2%BE%E9%80%89%E5%9B%BE%E9%9B%86-%E4%B8%8B%E8%BD%BD%E6%8E%92%E8%A1%8C-%E5%AD%A3%E5%BA%A6%E6%A6%9C%E5%8D%95"
    datalist = getDate(baseurl)
    print(datalist)
 
reJs = re.compile(r'goods=([\s\S]+?)</script>')
def getDate(baseurl):
    datalist = []
    html = askURL(baseurl)
    jsonstr = reJs.findall(html)[0].strip().rstrip(';')
    data=json.loads(jsonstr)
    arr=[]
    for i in range(0,10):#获取前10张图
        arr.append({
            'url':'https://stock.tuchong.com/image/detail?imageId='+data[i]['image_id']+'&platform=image&term=&requestId=&searchId=&page=1&entryFrom=%E4%B8%93%E9%A2%98%E5%88%97%E8%A1%A8&index='+str(i),
            'img':'//cdn6-banquan.ituchong.com/weili/smh/'+data[i]['image_id']+'.webp'
         })
    return arr

def askURL(baseurl):
    head = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36"}
    request = urllib.request.Request(baseurl,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html
if __name__ =="__main__":
    main()

编辑记录

报告相同问题？

关注问题

python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
爬虫一直遇到返回空表格的问题 python 爬虫
2022-03-12 23:06

回答 1 已采纳如果你确定soup没问题的话，那就是你的soup.find_all那里出了问题，你可以单独打印一下看看，应该是你写的条件没有匹配到
Python爬虫返还内容为空列表
2022-11-06 13:41

m0_73892503的博客我发现我的爬虫爬取的内容是很多个空列表，并且因此卡在这里无法运作。经过查询资料我得知，像是新闻，资讯这种动态更新的网址，用普通的检查获取源代码的方法，是无法获取到你想要获取的内容的。解决...
用PYTHON 的 requests库请求一个post 状态码是200，但是返回内容是空 javascript python 爬虫
2022-07-16 17:00

回答 5 已采纳 body中的data参数是用urlencoded形式传过去的，用urlencode处理一下 import requests from urllib.parse import urlencode i
python爬虫，当正则表达式无法匹配，怎么输出空字符 python 有问必答正则表达式爬虫
2021-09-01 16:19

回答 3 已采纳使用try except环绕即可
python爬虫代码运行不报错，但是保存到CSV的数据为空，是哪里出了问题 python
2022-08-09 16:38

回答 8 已采纳 respone.text获取的json数据格式有问题,用 json.loads(respone.text)解析出错另外写csv文件的代码要放到for循环外面,所有数据获取之后再一起写入 cit
python爬虫requests返回网页内容为空_Python 爬虫使用Requests获取网页文本内容中文乱码...
2020-11-20 20:56

weixin_39719018的博客 1. 问题使用Requests去获取网页文本内容时，输出的中文出现乱码。2. 乱码原因爬取的网页编码与我们爬取编码方式不一致造成的。如果爬取的网页编码方式为utf8，而我们爬取后程序使用ISO-8859-1编码方式进行编码并输出...
python爬虫下载PDF失败 python 爬虫
2023-03-27 13:35

回答 3 已采纳感谢两位。我刚刚分析了一下所有下载异常的文件，名字中都有冒号：，replace替换后现在可以下载了。
python爬取到的网页文本，保存本地txt显示文件为空？什么原因呢？ python 有问必答
2022-04-07 11:17

回答 3 已采纳 w改为a（追加），要不会将当前写入的内容覆盖文件内容要么将open和close放到for循环外
为什么爬取豆瓣top250得到是的是个空列表啊 python 有问必答
2021-12-03 22:06

回答 2 已采纳被反扒了，加上User-Agent def getHtml(url): r=requests.get(url,headers={'User-Agent':'Mozilla/5.0 (Windo
python 爬虫输出为空_爬虫输出文件为空，求解答
2021-02-03 04:18

weixin_39661129的博客 import json import requests import csv from multiprocessing.dummy import Pool as ThreadPool import time import random ...pool.join() f.close() 运行输出文件为空，不知道是迭代设置错误还是函数错误？求帮助
爬虫搜索出来内容是JS封装 python 数据挖掘问答团队
2021-03-05 10:29

回答 2 已采纳用requests.post(‘...getFullTextData’，headers=headers,cookies=cookies,data=data),要把请求头,cookies和请求参数传递进
Python爬虫requests返回值为空的解决方案
2023-05-24 07:45

爱编程的喵喵的博客本文主要介绍了requests返回值为空的解决方案，希望能对学习爬虫的同学们有所帮助。需要说明的是，该方案适合无需进行登录账户等其他操作就能通过浏览器看到网站内容的情况，而不适用更加复杂的场景。文章目录 1....
python爬虫requests返回网页内容为空_python爬虫使用requests请求无法获取网页元素时终极解决方案...
2020-11-20 20:55

weixin_39705065的博客原博文2020-06-14 19:28 −爬取数据时，有时候会出现无法通过正常的requests请求获取网页内容，导致数据无法抓取到，遇到这种情况时，可以换种思路去爬取数据，使用PhantomJS，即爬虫终极解决方案去获取页面元素。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月25日

悬赏问题

¥15 使用C#，asp.net读取Excel文件并保存到Oracle数据库
¥15 C# datagridview 单元格显示进度及值
¥15 thinkphp6配合social login单点登录问题
¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配

我的爬虫得到的是空内容

2条回答 默认 最新

图片是js解析后生成的，并不是被反扒了

问题事件

悬赏问题

2条回答默认最新