通过构造ajax请求爬取头条街拍图片时，生成的文件夹全是空的, 求大神指导

from multiprocessing.pool import Pool
import requests
from urllib.parse import urlencode
headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"}
def get_page(offset):
    params = {
        'offset': offset,
        'format': 'json',
        'keyword': '街拍',
        'autoload': 'true',
        'count': '20',
        'cur_tab': '1',
        'from':'search_tab',
        'pd': 'synthesis'
    }
    # format the url ,add necessary params
    url = 'http://www.toutiao.com/search_content/?'+urlencode(params)
    try:
        response = requests.get(url,headers= headers)
        if response.status_code == 200:
            return response.json() # format the response in json
    except requests.ConnectionError as e:
        print('Error: ', e.args)
        return None
def parse_page(json):
    if json.get('data'):
        for item in json.get('data'):
            title = item.get('title')
            image_url = item.get('item_source_url') # get the real source url of pictures
            if image_url:
                yield {
                    'image': 'https://www.toutiao.com/'+image_url,
                     'title': title
                } # create a list of dictionary of image source url and title
            else:
                continue  # skip the wrong image_url
import re
def further_get(source_url):
        response = requests.get(source_url['image'], headers= headers)
        pattern = re.compile('http\:\\\\\/\\\\\/p99\.pstatp\.com\\\\\/origin\\\\\/pgc-image\\\\\/[a-f0-9]+',re.S)
        new_items = re.findall(pattern, response.text)
        return new_items # return the list of url
import os
from hashlib import md5
def save_image(item, lst):
    if not os.path.exists(item.get('title')):
        os.mkdir(item.get('title'))
    try:
        for url_deep in lst:
            response = requests.get(url_deep.replace('\\',''),headers= headers)
            if response.status_code == 200:
                file_path = "{}/{}.{}".format(item.get('title'),md5(response.content).hexdigest(),'png')
                if not os.path.exists(file_path):
                    with open(file_path, 'wb') as f:
                        f.write(response.content)
                else:
                    print("Already Download",file_path)
    except requests.ConnectionError:
        print('Failed to save image')
def main(offset):
    json = get_page(offset)
    for item in parse_page(json):
        lst = further_get(item)
        save_image(item, lst)
start = 1
end = 20
if __name__ == '__main__':
    pool= Pool()
    groups = (x * 20 for x in range(start,end+1))
    pool.map(main, groups)
    pool.close()
    pool.join()

代码原来是崔庆才的书里的，但是他那个代码过时了，头条把图片的连接藏到更深一步的链接里了，所以我加了一个further_get 函数

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
肉猪 2018-12-10 16:29
关注
在headers里添加cookie试试

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

通过ajax从数据库请求成功数据后，如何将数据渲染到前端页面？ ajax javascript 前端
2021-12-11 22:33

回答 1 已采纳你应该是用原生js吧用获取到的数据生成html片段，然后插入到页面中.例如：获取到的数据是data=[ ] for(let i =0;i<data.length;i++){
前端ajax问题前端通过ajax请求访问后端接口 ajax javascript layui
2021-09-26 14:53

回答 2 已采纳只有后端有正确返回了，那么前端，肯定是可以接收得到。首先，你先确认后端有正确返回了，比如，你可以用postman请求接口试试，看看有没有正确返回。
为啥ajax请求的 url 是一个html?这个请求的数据是发送给谁了呢? ajax javascript 前端
2022-07-04 16:01

回答 1 已采纳 url 写啥就发送给谁了呗。ulr 是一个。html ，正常，还可以是 .json,.txt应该就是请求这个文件
通过分析Ajax请求爬取今日头条街拍图
2019-03-07 10:32

白薇.的博客最近在看崔大的ajax，于是自己试了一把，觉得大神之所以是大神还是有原因的。。。。。。作为小白，我有我自己的编码方式（大佬们别喷，我口水过敏）废话不多说！首先来看今日头条的街拍图响应内容：点击...
前端终止ajax请求时如何同时终止后端的操作? ajax java
2017-11-01 13:31

回答 1 已采纳后端操作的时候轮询前端是否发送请求操作，如果有，主动退出。如果后端操作是数据库，那么放在线程里，轮询的主程序判断如果前端发来取消操作，就关线程。
ajax post请求后页面会自动刷新页面 ajax javascript 前端有问必答
2022-03-11 16:18

回答 2 已采纳代码没看出什么问题。自动刷新目测是提交表单了，有下面的可能1）jquery没有正确导入导致事件没绑定上，比如路径错误2）执行click事件绑定的代码放到dom前面了没绑定上事件，导致提交了表单。需要放
Echarts画表 $.ajax请求不成功 ajax html 前端
2022-07-05 23:05

回答 4 已采纳你说的读取到web上是指服务端查询到了数据？如果ajax请求失败的话，也就是会进入error方法，这个方法会有3个参数，你可以输出看一下具体的错误信息。error : function(e1,e2,e
Python | 分析 Ajax 爬取今日头条街拍美图
2018-09-08 00:47

一个优秀的废人的博客微信公众号：一个优秀的废人如有问题或建议，请后台留言，我会尽力解决你的问题。...今天给你们带来的是今日头条街拍美图的爬取：分析 Ajax 爬取今日头条街拍美图。环境这次实战采取的是 wi10 + py...
使用ajax请求post，正确响应但then代码块的内容无法执行 ajax vue.js 前端
2022-05-19 10:06

回答 3 已采纳不一定吧，你看看你的响应也不是json格式的呀，你是不是没有对后端的结果进行封装成json字符串呀，你后端的数据格式一般应该是{"code":200,"data":{}}这样的
前端问题：ajax请求获取了pdf 文件流，怎么在线展示 ajax 前端
2018-11-30 05:41

回答 3 已采纳可以参考这个文章：[https://www.jianshu.com/p/242525315bf6](https://www.jianshu.com/p/242525315bf6 "")
前端用Ajax怎么给后端发送请求获取数据？ ajax html java
2023-02-07 22:28

回答 3 已采纳后端返回数据就行。前端可以在 success 里获取到 data就是返回的数据
python爬取今日头条街拍_【Python3】今日头条街拍美图抓取
2020-12-05 21:03

weixin_39634900的博客崔庆才大神写了篇分析Ajax抓取今日头条街拍美图的文章，自己学习之后，自己从零实现了一遍，现在把分析过程和代码实现分享给大家。【涉及知识点】基本库的使用正则表达式Ajax数据爬取文件下载【预装库】确保你的...
为什么网页发生两次请求，第一次是空指针，报空指针异常 java spring boot 前端
2022-07-30 13:27

回答 2 已采纳很简单，第一次为什么controller接收不到？因为第一次发的是get请求，第二次发的post请求，所以第一次数据接收不了。解决在 controller中指定用post请求
Ajax数据爬取实战——今日头条街拍爬取（改进版本）
2019-08-27 09:37

加油、向上吧的博客小白自己在学习崔庆才的《Python3网络爬虫开发实战》的过程中，在第七章有讲到Ajax爬取头条街拍的实战，但是在自己实际编写过程中发现书上给出的代码并不能正常爬取想要的图片，这是因为作者在编写这本书的时间到...
大神牛刀小试，用Python爬取海量头条妹子图！
2020-11-23 10:00

爱摸鱼的菜鸟码农的博客接着我们在网页上打开今日头条，在搜索栏搜索“街拍” 因为这里面的小姐姐多，漂亮之后，我们选择“network”标签，按F5刷新，就能找到类型“Type”是“xhr”的，这是一个Ajax请求。Ajax的全称是“Asynchronous...
没有解决我的问题, 去提问

悬赏问题

¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？
¥100 求三轴之间相互配合画圆以及直线的算法
¥100 c语言，请帮蒟蒻写一个题的范例作参考
¥15 名为“Product”的列已属于此 DataTable
¥15 安卓adb backup备份应用数据失败
¥15 eclipse运行项目时遇到的问题
¥15 关于#c##的问题：最近需要用CAT工具Trados进行一些开发
¥15 南大pa1 小游戏没有界面，并且报了如下错误，尝试过换显卡驱动，但是好像不行
¥15 自己瞎改改，结果现在又运行不了了