自学python的新人 2022-07-15 23:48 采纳率: 88.9%
浏览 71
已结题

基础爬虫 不报错也不下数据


import urllib.parse
import urllib.request

def requert_get(page):
    first_url='https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&'
    data={
        'start':(page-1)*20,  #根据上面规则start = (page-)*20. 所以我们需要实参page的值
        'limit':20
    }
    data=urllib.parse.urlencode(data)
    url= first_url+data
    headers = {
        'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49'

    }
    requerst=urllib.request.Request(url=url,headers=headers)
    return requerst

def reqopne_get(requerst):
    content = urllib.request.urlopen(requerst)       #模拟浏览器像服务器发送请求
    contents=content.read().decode('utf-8')
    return contents       #返回contents的值


def plase_get(page,contents):
    with open('douban.'+str(page)+'json','w',encodings='utf-8') as fp:
        fp.write(contents)



if __name__ == '__main__':

    utf_name=int(input('请输入开始页码'))
    last_name=int(input('请输入结束页码'))
    for page in range(utf_name,last_name+1): #左闭又开想要获取10页数据 10+1 11获取第10页数据
        #请求对象定制
        requerst=requert_get(page)
        #获取响应的数据
        contents=reqopne_get(requerst)
        #下载数据
        plase_get=(page,contents)
  • 写回答

4条回答 默认 最新

  • 亖夕 Python领域新星创作者 2022-07-16 17:49
    关注

    帮你改好了

    img

    img

    
    ```python
    import urllib.parse
    import urllib.request
    
    
    def requert_get(page):
        first_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&'
        data = {
            'start': (page - 1) * 20,  # 根据上面规则start = (page-)*20. 所以我们需要实参page的值
            'limit': 20
        }
        data = urllib.parse.urlencode(data)
        url = first_url + data
        headers = {
            'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49'
    
        }
        requerst = urllib.request.Request(url=url, headers=headers)
        return requerst
    
    
    def reqopne_get(requerst):
        content = urllib.request.urlopen(requerst)  # 模拟浏览器像服务器发送请求
        contents = content.read().decode('utf-8')
        return contents  # 返回contents的值
    
    
    def plase_get(page, contents):
        filename = 'douban.' + str(page) + 'json'
        with open(filename, 'w', encoding='utf-8') as fp:
            fp.write(contents)
        print('保存完成')
    
    
    if __name__ == '__main__':
    
        utf_name = int(input('请输入开始页码'))
        last_name = int(input('请输入结束页码'))
        for page in range(utf_name, last_name + 1):  # 左闭又开想要获取10页数据 10+1 11获取第10页数据
            # 请求对象定制
            requerst = requert_get(page)
            # 获取响应的数据
            contents = reqopne_get(requerst)
            # 下载数据
            plase_get(page, contents)
    
    
    

    ```

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

问题事件

  • 系统已结题 7月24日
  • 已采纳回答 7月16日
  • 创建了问题 7月15日

悬赏问题

  • ¥15 smptlib使用465端口发送邮件失败
  • ¥200 总是报错,能帮助用python实现程序实现高斯正反算吗?有偿
  • ¥15 对于squad数据集的基于bert模型的微调
  • ¥15 为什么我运行这个网络会出现以下报错?CRNN神经网络
  • ¥20 steam下载游戏占用内存
  • ¥15 CST保存项目时失败
  • ¥15 树莓派5怎么用camera module 3啊
  • ¥20 java在应用程序里获取不到扬声器设备
  • ¥15 echarts动画效果的问题,请帮我添加一个动画。不要机器人回答。
  • ¥15 Attention is all you need 的代码运行