自学python的新人 2022-07-15 23:48 采纳率: 88.9%
浏览 71
已结题

基础爬虫 不报错也不下数据


import urllib.parse
import urllib.request

def requert_get(page):
    first_url='https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&'
    data={
        'start':(page-1)*20,  #根据上面规则start = (page-)*20. 所以我们需要实参page的值
        'limit':20
    }
    data=urllib.parse.urlencode(data)
    url= first_url+data
    headers = {
        'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49'

    }
    requerst=urllib.request.Request(url=url,headers=headers)
    return requerst

def reqopne_get(requerst):
    content = urllib.request.urlopen(requerst)       #模拟浏览器像服务器发送请求
    contents=content.read().decode('utf-8')
    return contents       #返回contents的值


def plase_get(page,contents):
    with open('douban.'+str(page)+'json','w',encodings='utf-8') as fp:
        fp.write(contents)



if __name__ == '__main__':

    utf_name=int(input('请输入开始页码'))
    last_name=int(input('请输入结束页码'))
    for page in range(utf_name,last_name+1): #左闭又开想要获取10页数据 10+1 11获取第10页数据
        #请求对象定制
        requerst=requert_get(page)
        #获取响应的数据
        contents=reqopne_get(requerst)
        #下载数据
        plase_get=(page,contents)
  • 写回答

4条回答 默认 最新

  • 亖夕 Python领域新星创作者 2022-07-16 17:49
    关注

    帮你改好了

    img

    img

    
    ```python
    import urllib.parse
    import urllib.request
    
    
    def requert_get(page):
        first_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&'
        data = {
            'start': (page - 1) * 20,  # 根据上面规则start = (page-)*20. 所以我们需要实参page的值
            'limit': 20
        }
        data = urllib.parse.urlencode(data)
        url = first_url + data
        headers = {
            'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49'
    
        }
        requerst = urllib.request.Request(url=url, headers=headers)
        return requerst
    
    
    def reqopne_get(requerst):
        content = urllib.request.urlopen(requerst)  # 模拟浏览器像服务器发送请求
        contents = content.read().decode('utf-8')
        return contents  # 返回contents的值
    
    
    def plase_get(page, contents):
        filename = 'douban.' + str(page) + 'json'
        with open(filename, 'w', encoding='utf-8') as fp:
            fp.write(contents)
        print('保存完成')
    
    
    if __name__ == '__main__':
    
        utf_name = int(input('请输入开始页码'))
        last_name = int(input('请输入结束页码'))
        for page in range(utf_name, last_name + 1):  # 左闭又开想要获取10页数据 10+1 11获取第10页数据
            # 请求对象定制
            requerst = requert_get(page)
            # 获取响应的数据
            contents = reqopne_get(requerst)
            # 下载数据
            plase_get(page, contents)
    
    
    

    ```

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

问题事件

  • 系统已结题 7月24日
  • 已采纳回答 7月16日
  • 创建了问题 7月15日

悬赏问题

  • ¥15 nslt的可用模型,或者其他可以进行推理的现有模型
  • ¥15 arduino上连sim900a实现连接mqtt服务器
  • ¥15 vncviewer7.0安装后如何正确注册License许可证,激活使用
  • ¥15 phython如何实现以下功能?查找同一用户名的消费金额合并2
  • ¥66 关于人体营养与饮食规划的线性规划模型
  • ¥15 基于深度学习的快递面单识别系统
  • ¥15 Multisim仿真设计地铁到站提醒电路
  • ¥15 怎么用一个500W电源给5台60W的电脑供电
  • ¥15 请推荐一个轻量级规则引擎,配合流程引擎使用,规则引擎负责判断出符合规则的流程引擎模板id
  • ¥15 Excel表只有年月怎么计算年龄