weixin_52130329 2021-06-17 23:58 采纳率: 50%

爬虫入门问题，爬取10页没问题，但改了for i in range后依然是10页

问题

for循环for i in range（0，10）读取10页信息没问题，但是改成for i in range（0，1），本来是一页信息，但运行时读取的还是10页

import urllib.request,urllib.error

from bs4 import BeautifulSoup

import re

import xlwt

import sqlite3

def main():

baseurl="https://movie.douban.com/top250?star="

datalist=getData(baseurl)

askURL("https://movie.douban.com/top250?star=")

findLink=re.compile(r'<a href="(.*?)">')

def getData(baseurl):

datalist=[]

for i in range(0,10):

url=baseurl + str(i*25)

html=askURL(url)

soup=BeautifulSoup(html,"html.parser")

for item in soup.find_all('div',class_="item"):

# print(item)

data=[]

item=str(item)

link=re.findall(findLink,item)[0]

# print(link)

return datalist

def askURL(url):

head={

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36 Edg/91.0.864.48"

}

request=urllib.request.Request(url,headers=head)

html=""

try:

response=urllib.request.urlopen(request)

html=response.read().decode("utf-8")

print(html)

except urllib.error.URLError as e:

if hasattr(e,"code"):

print(e.code)

if hasattr(e,"reason"):

print(e.reason)

return html

if __name__=="__main__":

main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

江天暮雪丨 2021-06-18 10:08

关注

首先你需要获取的信息是link 吧？你没有把 link 添加到 datalist 里面去

        for item in soup.find_all('div', class_="item"):
            # print(item)
            data = []
            item = str(item)
            link = re.findall(findLink, item)[0]
            # print(link)

            # link 添加到 datalist 中
            datalist.append(link)

然后这个地方应该是 start= 吧？少写个t？

    baseurl="https://movie.douban.com/top250?star="

    datalist=getData(baseurl)

    askURL("https://movie.douban.com/top250?star=")

## 
    baseurl="https://movie.douban.com/top250?start="

    datalist=getData(baseurl)

    askURL("https://movie.douban.com/top250?start=")

报告相同问题？

关注问题

python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
Python中关于在list中使用for i in range()的问题 list python
2019-02-16 15:55

回答 6 已采纳 ![图片说明](https://img-ask.csdn.net/upload/201902/16/1550312203_117983.png) 从上面的图片中得出的结果就是和你上面一样， ![图
for i in range的问题，搞不懂了 python 有问必答
2021-11-06 17:53

回答 2 已采纳有啊。第一种默认从索引0开始，i的取值为0,1,2,3....19第二种从索引1开始,i的取值为1,2,3,4....20循环次数都是20次。
Python爬虫入门教程！手把手教会你爬取网页数据_python爬取网页数据
2024-05-06 12:42

rr8f2haQf的博客在学习python中有任何困难不懂的可以微信扫描下方CSDN官方认证二维码加入python交流学习多多交流问题，互帮互助，这里有不错的学习教程和开发工具。[[CSDN大礼包：《python安装包&全套学习资料》免费分享]]安全链接...
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
for i in range 赋值问题 python
2022-02-21 23:35

回答 2 已采纳 range里是数不是数组吧，这里去掉range。如果是分别遍历应该嵌套
关于#python#的问题：for i in range(2,int(x/2)+1): python
2022-11-16 12:56

回答 4 已采纳加个标志即可，然后第二个for循环的范围也可以改为for i in range(2,int(math.sqrt(x))+1)，修改如下： for x in range(100,1001): i
python爬虫实践——零基础快速入门（六）解决动态页面爬取问题
2018-01-31 14:22

MTbaby的博客 python爬虫实践——零基础快速入门（六）解决动态页面爬取问题前面我们已经学过爬取豆瓣电影、豆瓣图书TOP250，小猪租房等信息。相信你现在都能轻易上手爬取其他网站了。通过前面的例子我，我们知道，爬取大量数据...
怎么用for i in range():在前面输出数字后面在加文字 python 问答团队
2022-07-28 23:56

回答 9 已采纳 for i in range(num): print(i, "字符串"， sep="") 结果：0字符串1字符串2字符串
表达式(i**2 for i in range（100)）的结果是什么 python
2021-12-29 10:59

回答 5 已采纳 100 个平方数
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
2024年Python最新Python爬虫入门教程27：爬取某电商平台数据内容并做数据可视化
2024-05-01 08:52

2401_84584609的博客我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的学习资料包括但不限于：...
python爬虫入门问题 python 有问必答
2021-06-16 16:50

回答 3 已采纳有两个错误的地方，一是在askURL函数里，不要把return html放到except里,否则没有异常时返回为None，将其写成与try,except对齐；二是在函数 getData里，for循环
python爬虫能爬取什么_Python爬虫入门：爬取pixiv
2020-12-03 04:29

weixin_39620279的博客 1 defwork(self):2 self.login()3 for page_num in range(1, 51): #太多页了,只跑50页 4 path = str(page_num) #每一页就开一个文件夹 5 self.mkdir(path) #创建文件夹 6 #print(self.target_url + str(page_num)) ...
Python爬虫爬取全部商品页的商品信息并实现自动翻页
2023-05-01 15:28

我不是少爷.的博客那么困扰我几天的问题什么呢，我没办法实现爬虫获取完第一页的数据后，自己跳转向下一页，我原本做了个driver的点击函数，用以自己跳转下一页，但最后只能跳转到第二页就开始会有报错，我仔细观察了网站在新的一页里...
没有解决我的问题, 去提问

悬赏问题

¥15 图像超分real-esrgan网络自己训练模型遇到问题
¥15 如何构建全国统一的物流管理平台?
¥100 ijkplayer使用AndroidStudio/CMake编译，如何支持 rtsp 直播流?
¥15 用js遍历数据并对非空元素添加css样式
¥15 使用autodl云训练，希望有直接运行的代码(关键词-数据集)
¥50 python写segy数据出错
¥20 关于线性结构的问题：希望能从头到尾完整地帮我改一下，困扰我很久了
¥30 3D多模态医疗数据集-视觉问答
¥20 设计一个二极管稳压值检测电路
¥15 内网办公电脑进行向日葵

码龄粉丝数原力等级 --

爬虫入门问题，爬取10页没问题，但改了for i in range后依然是10页

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

爬虫入门问题，爬取10页没问题，但改了for i in range后依然是10页

1条回答 默认 最新

悬赏问题

1条回答默认最新