Mr 氵。函 2024-08-08 12:49 采纳率: 0%

已结题

被google屏蔽ip

目前在第二步骤就出现被google屏蔽ip问题这个情况如何修改？

1.从Azure Blob存储中获取最新的关键词报告。
2.对每个关键词进行Google搜索,提取排名信息和前三个搜索结果的页面信息。
3.从站点地图XML文件中提取URL,并获取每个URL的页面信息。
4.将所有收集到的数据整理成DataFrame,以便进一步分析和处理。

目前已经尝试了的方法
使用代理IP
增加请求间隔
用户代理（User-Agent）轮换

上述都不能解决问题


{
遍历关键词列表 keywords:
    尝试:
        随机等待 30 到 55 秒

        初始化变量:
            companyFound = False
            foundedRank = 0
            foundedCompanyUrl = ''
            rank = 0
            urlsDict = {'Number 1 Url': '', 'Number 2 Url': '', 'Number 3 Url': ''}
            page_num = 0
            found = False
            empty_first_url_count = 0  # 初始化计数器，记录连续出现第一名 URL 为空的次数

        循环遍历搜索结果页面，直到达到 num_of_pages 页:
            构造 Google 搜索结果页面的 URL

            启动无头浏览器
            打开搜索结果页面 URL

            使用 BeautifulSoup 解析页面内容
            提取所有搜索结果

            遍历每个搜索结果:
                如果在第一页，且结果在前三名:
                    获取结果的 URL 并打开
                    初始化 urlsDict2 字典

                    获取页面源代码并使用 BeautifulSoup 解析
                    提取页面标题、H1 标签、OG 标题和OG 描述
                    将数据添加到 urlsDict2

                    将 urlsDict2 添加到 topUrlsData 列表中

                增加排名计数器 rank
                获取结果的公司 URL

                如果找到的公司 URL 等于目标域名且 found 为 False:
                    设置 found 为 True
                    设置 companyFound 为 True
                    记录排名 foundedRank
                    记录公司 URL foundedCompanyUrl
                    跳出内部循环

            如果 found 为 True, 跳出外部循环
            增加页面计数器 page_num

            如果第一页的第一名 URL 为空:
                增加 empty_first_url_count 计数器
                否则:
                    重置 empty_first_url_count 计数器为 0
                
                如果 empty_first_url_count 连续达到 3:
                    报错并停止循环: error: IP is blocked by Google

        打印关键词及其排名
        如果未找到公司 URL:
            设置 foundedRank 和 foundedCompanyUrl 为 None

        将结果添加到 DataFrame 中:
            df.loc[i, 'Keywords'] = 关键词
            df.loc[i, 'Rank'] = 排名
            df.loc[i, 'Date'] = 当前日期
            df.loc[i, 'CompanyURL'] = 公司 URL
            df.loc[i, 'Number 1 Url'] = 第一名 URL
            df.loc[i, 'Number 2 Url'] = 第二名 URL
            df.loc[i, 'Number 3 Url'] = 第三名 URL

        增加计数器 i

    如果发生异常:
        将错误信息添加到 DataFrame 中:
            df.loc[i, 'Keywords'] = 关键词
            df.loc[i, 'Rank'] = 错误信息
            df.loc[i, 'Date'] = 当前日期
            df.loc[i, 'CompanyURL'] = 错误信息
            df.loc[i, 'Number 1 Url'] = None
            df.loc[i, 'Number 2 Url'] = None
            df.loc[i, 'Number 3 Url'] = None

        增加计数器 i
}

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

18条回答默认最新

喵手新星创作者: 后端开发技术领域 2024-08-08 17:53

关注

获得0.45元问题酬金

该回答引用ChatGPT辅助答疑，若有帮助，还请题主采纳。

被Google屏蔽IP通常是因为在短时间内发送了过多的请求，触发了Google的反爬虫机制。你已经尝试了一些常见的解决方法，如使用代理IP、增加请求间隔和用户代理轮换，但问题依然存在。以下是一些进一步的建议：

1. 增加随机的请求间隔

尝试增加请求间隔的随机性和长度。比如，将等待时间从30到55秒改为60到120秒之间：

import random
import time

def random_wait():
    wait_time = random.randint(60, 120)
    time.sleep(wait_time)

2. 使用高级代理服务

普通的代理IP可能无法满足需求，可以尝试使用更高级的代理服务，例如动态住宅IP代理。这些代理通常更难被检测到。

3. 实现分布式爬虫

将请求分散到多个IP地址上，可以使用分布式爬虫框架，如Scrapy-Cluster，来减少单个IP的负载。

4. 减少请求频率

减少对Google的请求频率。例如，可以限制每分钟的请求数量：

import time

REQUESTS_PER_MINUTE = 10
start_time = time.time()

for keyword in keywords:
    # Your search code here
    elapsed_time = time.time() - start_time
    if elapsed_time < 60:
        time.sleep(60 - elapsed_time)
    start_time = time.time()

5. 模拟真实用户行为

通过模拟真实用户的行为，可以增加爬虫的隐蔽性。包括随机滚动页面、点击链接等。

6. 使用不同的搜索引擎

可以尝试使用不同的搜索引擎来分担负载，例如Bing、Yahoo等。

7. 使用Google Search API

虽然有配额限制，但使用官方的Google Search API可以避免被屏蔽：

from googleapiclient.discovery import build

service = build("customsearch", "v1", developerKey="YOUR_API_KEY")
res = service.cse().list(q='search query', cx='YOUR_SEARCH_ENGINE_ID').execute()
print(res)

8. 检查并处理异常情况

确保正确处理异常情况，如重试机制、错误日志记录等。

示例代码

结合以上建议的代码示例：

import requests
from bs4 import BeautifulSoup
import random
import time

def fetch_google_search_results(query):
    user_agents = [
        # List of user agents
    ]
    headers = {
        'User-Agent': random.choice(user_agents),
    }
    response = requests.get(f"https://www.google.com/search?q={query}", headers=headers)
    return response.text

def parse_results(html):
    soup = BeautifulSoup(html, 'html.parser')
    # Parsing logic
    return results

def main(keywords):
    for keyword in keywords:
        try:
            random_wait()
            html = fetch_google_search_results(keyword)
            results = parse_results(html)
            # Process results
        except Exception as e:
            print(f"Error fetching results for {keyword}: {e}")
            continue

def random_wait():
    wait_time = random.randint(60, 120)
    time.sleep(wait_time)

if __name__ == "__main__":
    keywords = ["example keyword1", "example keyword2"]
    main(keywords)

9. 增加请求失败重试机制

添加重试机制以应对请求失败的情况：

import requests
from requests.exceptions import RequestException
import time

def fetch_with_retry(url, headers, retries=3):
    for i in range(retries):
        try:
            response = requests.get(url, headers=headers)
            response.raise_for_status()
            return response.text
        except RequestException as e:
            print(f"Attempt {i + 1} failed: {e}")
            if i < retries - 1:
                time.sleep(2 ** i)  # Exponential backoff
            else:
                raise

def fetch_google_search_results(query):
    user_agents = [
        # List of user agents
    ]
    headers = {
        'User-Agent': random.choice(user_agents),
    }
    return fetch_with_retry(f"https://www.google.com/search?q={query}", headers)

通过结合以上方法，可以有效减少被Google屏蔽的可能性，提高爬虫的稳定性和可靠性。如果这些方法都无法解决问题，可能需要进一步分析具体的错误信息和情况。

报告相同问题？

关注问题

C++后端开发知识点总结
2021-08-22 14:04

殇弑天的博客 C++后端开发知识点总结 C++后端开发知识点总结 C++ 1. 全局变量的作用域与初始化 2. 字节对齐的计算方法 3. 类的静态成员 4. 纯虚函数的用法 5. 构造函数和析构函数的执行顺序 6. 类的作用域 7. STL相关数据结构的...
后端技术体系框架
2021-08-28 23:14

pushiqiang的博客这边我推荐我看过的一本书曾宪杰《大型网站系统与Java中间件实践》，对于后端的一些服务如何从单机到分布式讲解是非常深入的，让你能够对后端各个层次的中间件框架有着进一步的理解。 1、后端技术体系框架使用...
IP限制测试
2023-06-15 23:49

It's Q的博客需求场景需要限制指定地区和国家的访问限制的分类全站限制是运维进行全站的屏蔽，属于需要屏蔽地区的IP，访问网站全部展示504 限制部分功能前端：获取用户IP后，根据区域不同展示需要展示的内容后端：对用户...
个人后端知识点总结
2024-02-28 14:04

稻香码农.的博客学过计算机软件的多多少少得都会听过设计模式，其主要得目的就是提高我们系统设计和代码质量，增加复用性、提升系统的可扩展性。...使用代理模式，我就是要屏蔽我内部实现类，用代理类实现一些额外的控制等。
Nginx服务器屏蔽与禁止屏蔽网络爬虫的方法
2020-09-29 23:44

这个配置会限制每个IP地址每秒只能发出一个请求，超出限制后，额外的请求将会被延迟（nodelay参数），或者在burst参数指定的额度内立即拒绝。总之，Nginx提供了丰富的配置选项来管理和控制网络爬虫的行为。通过...
Java后端技术概览
2022-08-25 16:37

等风来.长的博客从TCP/IP往上，HTTP协议是现在绝大多数后端应用对外提供的协议，发展到现在已经将要步入HTTP2.0时代，带来了持久连接、连接复用等令人振奋的新特性。此外，基于HTTP的HTTPS协议由于其安全性在逐渐的成为后端服务对外...
【后端学习】C++后端校招学习路线（学完必拿后端offer）
2021-11-06 10:55

德闲君的博客 @[TOC]C++后端面试必会知识点前言秋招面试结束了，我的专业是机械工程，有幸也能拿到互联网后端的offer，在此总结一下C++后端面试必会的面试知识，当然前提是要系统学习相关知识。提示：以下是个人经验，可供...
正向代理（动态 IP 代理）和反向代理
2025-01-21 11:18

闲猫的博客动态 IP 代理最常用的场景就是网络爬虫，因为大多数网站为了避免被频繁的访问和抓取，会限制访问 IP,如果使用同一个 IP 进行访问，那么很快就会不限制无法访问。隐藏客户端 IP 就是我们经常电影中看到的，黑客通过...
后端技术基础知识总结
2020-10-07 19:29

菜鸟上路_lbz的博客 HTTP重定向负载均衡也属于比较直接，当HTTP请求到负载均衡服务器后，使用一套负载均衡算法计算到后端服务器的地址，然后将新的地址给用户浏览器，浏览器收到重定向响应后发送请求到新的应用服务器从而实现负载均衡...
LobeChat是否记录IP地址？隐私合规性问题解读
2025-12-15 10:04

Waiyuet Fung的博客 LobeChat本身不主动记录用户IP，但部署环境如反向代理和第三方服务可能留下数据痕迹。真正的隐私风险来自服务器日志、网络配置和外部依赖。实现合规需多层防护，包括日志脱敏、隧道传输和本地模型运行。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月8日