利用python爬虫进行一个网站的信息搜索，requests返回代码为200，但是爬取的数据不正常，似乎都是同一页，翻页请求是不是被禁止了，我该如何解决

我想要用python爬虫重复获取网站信息，但爬不出东西，这个问题之前不存在，直到我在同一个网站翻页100页，没有设置停顿之后，就出现了网页请求访问正确，但是网站的数据似乎爬不下来了，数据只有第一页的，后面的页无法爬取。

代码如下，有人能帮忙看看，运行一下并告诉我什么原因吗，能帮我解决，有偿答谢

# -*- coding:utf-8 -*-

import time
import xlwt
import xlrd
import re
import requests
from bs4 import BeautifulSoup

findZclx = re.compile(r'<td class="zclx_lw textcenter">(.*?)</td>')
findLink = re.compile(r'href="(.*?)"')
findTitle = re.compile(r'>(.*?)</a>')
findDate = re.compile(r'<td class="textcenter">(.*?)</td>')

header = {
    "User-Agent": '"Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US) AppleWebKit/532.9 (KHTML, like Gecko) Chrome/5.0.310.0 Safari/532.9"'
}

number = 0
Keyword = ""

savepath1 = "筛选信息.xls"
dr = xlrd.open_workbook(savepath1)
table = dr.sheet_by_index(0)
KeyWords = table.col_values(0)
del KeyWords[0]


def main():
    baseurl = 'http://www.crpsz.com/zbxx/006001/secondpagejy.html?categoryNum=006001&pageIndex='
    for KeyWord in KeyWords:
        global Keyword
        Keyword = KeyWord
        savepath = Keyword + "招标信息.xls"
        datalist = askDATA(baseurl)
        SavePath(savepath, datalist)


def askDATA(baseurl):
    global number
    global Keyword
    number = 0
    datalist = []
    for i in range(1, 20):
        url = baseurl + str(i)
        time.sleep(3)
        page = requests.get(url, headers=header)
        print(page.status_code)
        page.encoding = "utf-8"
        soup = BeautifulSoup(page.text, 'html.parser')
        xm = soup.find_all('tr')
        del xm[0]
        for item in xm:
            data = []
            item = str(item)
            zclx = re.findall(findZclx, item)[0]
            if zclx == "FZ":
                link = re.findall(findLink, item)[0]
                link = 'http://www.crpsz.com' + link
                title = re.findall(findTitle, item)[0]
                date = re.findall(findDate, item)[0]
                if re.search(Keyword, title):
                    data.append(link)
                    data.append(title)
                    data.append("服务")
                    data.append(date)
                    datalist.append(data)
                    number = number + 1
                    print("这是"+Keyword+'的第%d个数据'%number)
        time.sleep(3)
    return datalist


def SavePath(savepath, datalist):
    global number
    print("save.......")
    book = xlwt.Workbook(encoding="utf-8", style_compression=0)  # 创建workbook对象
    sheet = book.add_sheet('招标信息', cell_overwrite_ok=True)  # 创建工作表
    col = ("项目详情链接", "标题", "招采类型", "发布时间")
    for i in range(0, 4):
        sheet.write(0, i, col[i])  # 列名
    for i in range(0, number):
        # print("第%d条" % (i + 1))  # 输出语句，用来测试
        data = datalist[i]
        for j in range(0, 4):
            sheet.write(i + 1, j, data[j])  # 数据
    book.save(savepath)  # 保存


if __name__ == "__main__":
    main()
    print("爬取完毕")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
二九筒 2023-07-25 17:08
关注
有反爬措施，直接把你IP拉入黑名单了，你要么等一天自动解封，要么就使用IP代理池

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
用PYTHON 的 requests库请求一个post 状态码是200，但是返回内容是空 javascript python 爬虫
2022-07-16 17:00

回答 5 已采纳 body中的data参数是用urlencoded形式传过去的，用urlencode处理一下 import requests from urllib.parse import urlencode i
python爬虫代码运行不报错，但是保存到CSV的数据为空，是哪里出了问题 python
2022-08-09 16:38

回答 8 已采纳 respone.text获取的json数据格式有问题,用 json.loads(respone.text)解析出错另外写csv文件的代码要放到for循环外面,所有数据获取之后再一起写入 cit
python 爬虫 post请求返回的数据不全，和postman模拟的不一样，关键内容是个空列表 python 有问必答爬虫
2021-09-08 11:50

回答 2 已采纳经过实际测试，该站对 refer和 origin 没有验证，却验证了 content-type，你在header里加上content-type就可以了 import requests impor
python爬虫抓数据，反馈请求成功，但是数据不对，这是为什么 python 爬虫
2022-07-20 16:02

回答 2 已采纳你确定你传的这两个参数能返回出有值的data？
Python网络爬虫案例实战：静态网页爬取：Requests爬虫实践
2024-08-11 03:38

andyyah晓波的博客至此，已经介绍了利用爬虫网络对静态网页进行爬取，下面直接通过两个实例来演示爬虫的实践。
为什么我的python爬取内容只显示最后一个数据，如果可以，希望附改正解决代码！ python 爬虫
2022-08-09 13:39

回答 3 已采纳
python 爬虫 requests.get() 所有网页都打不开 python 爬虫
2022-09-24 23:49

回答 1 已采纳 http协议都没加
使用requests 获取博客园每页内容时，为什么一直重复爬取第一页内容？感谢大佬 python 有问必答
2021-04-03 09:45

回答 4 已采纳问题出在urls构造上，第一页和后续网页的地址是不一样的，将这行改为：urls = [f'https://cnblogs.com/#p{page}' if page == 1 else f'https
利用PYTHON爬虫，Xpath路径正确但是返回数据为空
2022-11-22 10:50

lililimx的博客利用PYTHON爬虫，Xpath路径正确但是返回数据为空
Python requests.post方法爬取携程酒店获取不到数据 python
2021-07-28 11:42

回答 3 已采纳我猜请求头里面一定有数据是动态变化的，并且要做验证，你得知道它是如何加密的那些数据~
Python 网络爬虫与数据采集（一）
2022-01-30 21:28

秃顶的博客 Python 网络爬虫与数据采集第1章序章网络爬虫基础1 爬虫基本概述1.1 爬虫是什么1.2 爬虫可以做什么1.3 爬虫的分类1.4 爬虫的基本流程1.4.1 浏览网页的流程1.4.2 爬虫的基本流程1.5 爬虫与反爬虫1.5.1 爬虫的攻与防...
python爬虫实战——小说爬取
2023-05-21 21:01

清清清清弦的博客基于requests库和lxml库编写的爬虫，目标小说网站域名http://www.365kk.cc/，类似的小说网站殊途同归，均可采用本文方法爬取。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月25日

悬赏问题

¥200 csgo2的viewmatrix值是否还有别的获取方式
¥15 Stable Diffusion，用Ebsynth utility在视频选帧图重绘，第一步报错，蒙版和帧图没法生成，怎么处理啊
¥15 请把下列每一行代码完整地读懂并注释出来
¥15 pycharm运行main文件，显示没有conda环境
¥15 寻找公式识别开发，自动识别整页文档、图像公式的软件
¥15 为什么eclipse不能再下载了？
¥15 编辑cmake lists 明明写了project项目名，但是还是报错怎么回事
¥15 关于#计算机视觉#的问题：求一份高质量桥梁多病害数据集
¥15 特定网页无法访问，已排除网页问题
¥50 如何将脑的图像投影到颅骨上

利用python爬虫进行一个网站的信息搜索，requests返回代码为200，但是爬取的数据不正常，似乎都是同一页，翻页请求是不是被禁止了，我该如何解决

代码如下，有人能帮忙看看，运行一下并告诉我什么原因吗，能帮我解决，有偿答谢

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新