import urllib.parse
import urllib.request
def requert_get(page):
first_url='https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&'
data={
'start':(page-1)*20, #根据上面规则start = (page-)*20. 所以我们需要实参page的值
'limit':20
}
data=urllib.parse.urlencode(data)
url= first_url+data
headers = {
'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49'
}
requerst=urllib.request.Request(url=url,headers=headers)
return requerst
def reqopne_get(requerst):
content = urllib.request.urlopen(requerst) #模拟浏览器像服务器发送请求
contents=content.read().decode('utf-8')
return contents #返回contents的值
def plase_get(page,contents):
with open('douban.'+str(page)+'json','w',encodings='utf-8') as fp:
fp.write(contents)
if __name__ == '__main__':
utf_name=int(input('请输入开始页码'))
last_name=int(input('请输入结束页码'))
for page in range(utf_name,last_name+1): #左闭又开想要获取10页数据 10+1 11获取第10页数据
#请求对象定制
requerst=requert_get(page)
#获取响应的数据
contents=reqopne_get(requerst)
#下载数据
plase_get=(page,contents)
基础爬虫 不报错也不下数据
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
4条回答 默认 最新
关注 帮你改好了
```python import urllib.parse import urllib.request def requert_get(page): first_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&' data = { 'start': (page - 1) * 20, # 根据上面规则start = (page-)*20. 所以我们需要实参page的值 'limit': 20 } data = urllib.parse.urlencode(data) url = first_url + data headers = { 'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49' } requerst = urllib.request.Request(url=url, headers=headers) return requerst def reqopne_get(requerst): content = urllib.request.urlopen(requerst) # 模拟浏览器像服务器发送请求 contents = content.read().decode('utf-8') return contents # 返回contents的值 def plase_get(page, contents): filename = 'douban.' + str(page) + 'json' with open(filename, 'w', encoding='utf-8') as fp: fp.write(contents) print('保存完成') if __name__ == '__main__': utf_name = int(input('请输入开始页码')) last_name = int(input('请输入结束页码')) for page in range(utf_name, last_name + 1): # 左闭又开想要获取10页数据 10+1 11获取第10页数据 # 请求对象定制 requerst = requert_get(page) # 获取响应的数据 contents = reqopne_get(requerst) # 下载数据 plase_get(page, contents)
```
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 1无用
悬赏问题
- ¥15 smptlib使用465端口发送邮件失败
- ¥200 总是报错,能帮助用python实现程序实现高斯正反算吗?有偿
- ¥15 对于squad数据集的基于bert模型的微调
- ¥15 为什么我运行这个网络会出现以下报错?CRNN神经网络
- ¥20 steam下载游戏占用内存
- ¥15 CST保存项目时失败
- ¥15 树莓派5怎么用camera module 3啊
- ¥20 java在应用程序里获取不到扬声器设备
- ¥15 echarts动画效果的问题,请帮我添加一个动画。不要机器人回答。
- ¥15 Attention is all you need 的代码运行