不溜過客 2025-11-15 09:20 采纳率: 98.5%

已采纳

如何爬取指定公众号全部文章列表？

如何绕过微信公众号反爬虫机制，稳定获取指定公众号的全部历史文章列表？常见问题包括：请求频率限制导致IP被封、登录态（如cookie或token）失效、接口参数加密（如uin、key等动态参数难以模拟）、页面加载依赖JavaScript渲染（需无头浏览器支持）以及公众号搜索结果分页不连续等。此外，部分公众号文章列表采用HTTPS加密传输且存在Referer、User-Agent校验，直接抓包后模拟请求易失败。如何设计高可用的爬虫架构，在合法合规前提下实现增量抓取与数据去重，是该场景下的典型技术挑战。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

宝码香车优质创作者: JavaScript技术领域 2025-11-15 10:48

关注

让【宝码香车】来帮您解答，本回答参考DeepSeek编写，并整理提供。

如果答案能帮助您，请采纳，非常感谢！
.
每日一句正能量，让它带给您好心情：每一个清晨，都要告诉自己：今天也要努力，也要快乐。
.

如何爬取指定公众号全部文章列表

核心思路

基于微信公众号平台的技术特点，推荐采用多策略组合的方式实现稳定爬取。

技术方案

1. 基础请求配置

import requests
import time
import random


# 请求头配置
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Referer': 'https://mp.weixin.qq.com/',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'Connection': 'keep-alive'
}

2. 代理IP池管理

class ProxyPool:
    def __init__(self):
        self.proxies = []
        self.current_index = 0
    
    def add_proxy(self, proxy):
        self.proxies.append(proxy)
    
    def get_proxy(self):
        if not self.proxies:
            return None
        proxy = self.proxies[self.current_index]
        self.current_index = (self.current_index + 1) % len(self.proxies)
        return proxy
    
    def remove_proxy(self, proxy):
        if proxy in self.proxies:
            self.proxies.remove(proxy)

3. 请求频率控制

import time
from collections import defaultdict


class RequestLimiter:
    def __init__(self, max_requests_per_minute=30):
        self.max_requests = max_requests_per_minute
        self.request_times = defaultdict(list)
    
    def wait_if_needed(self, domain):
        current_time = time.time()
        domain_times = self.request_times[domain]
        
        # 移除1分钟前的记录
        domain_times = [t for t in domain_times if current_time - t < 60]
        self.request_times[domain] = domain_times
        
        if len(domain_times) >= self.max_requests:
            sleep_time = 60 - (current_time - domain_times[0])
            if sleep_time > 0:
                time.sleep(sleep_time)
        
        self.request_times[domain].append(current_time)

4. 无头浏览器方案

from selenium import webdriver
from selenium.webdriver.chrome.options import Options


def create_headless_browser():
    chrome_options = Options()
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--disable-dev-shm-usage')
    chrome_options.add_argument(f'--user-agent={headers["User-Agent"]}')
    
    driver = webdriver.Chrome(options=chrome_options)
    return driver


def get_articles_with_selenium(public_account_url):
    driver = create_headless_browser()
    try:
        driver.get(public_account_url)
        time.sleep(3)  # 等待页面加载
        
        # 模拟滚动加载更多内容
        for i in range(5):
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(2)
        
        # 提取文章信息
        articles = driver.find_elements_by_css_selector('.weui_media_box')
        article_list = []
        for article in articles:
            title = article.find_element_by_css_selector('.weui_media_title').text
            link = article.find_element_by_css_selector('.weui_media_title').get_attribute('hrefs')
            date = article.find_element_by_css_selector('.weui_media_extra_info').text
            article_list.append({
                'title': title,
                'link': link,
                'date': date
            })
        
        return article_list
    finally:
        driver.quit()

5. 数据存储与去重

import sqlite3
import hashlib


class ArticleStorage:
    def __init__(self, db_path='articles.db'):
        self.conn = sqlite3.connect(db_path)
        self.create_table()
    
    def create_table(self):
        cursor = self.conn.cursor()
        cursor.execute('''
            CREATE TABLE IF NOT EXISTS articles (
                id INTEGER PRIMARY KEY AUTOINCREMENT,
                title TEXT NOT NULL,
                link TEXT UNIQUE NOT NULL,
                publish_date TEXT,
                content_hash TEXT,
                created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
            )
        ''')
        self.conn.commit()
    
    def generate_hash(self, content):
        return hashlib.md5(content.encode('utf-8')).hexdigest()
    
    def is_duplicate(self, link, content):
        content_hash = self.generate_hash(content)
        cursor = self.conn.cursor()
        cursor.execute('SELECT id FROM articles WHERE link = ? OR content_hash = ?', 
                      (link, content_hash))
        return cursor.fetchone() is not None
    
    def save_article(self, title, link, publish_date, content):
        if not self.is_duplicate(link, content):
            content_hash = self.generate_hash(content)
            cursor = self.conn.cursor()
            cursor.execute('''
                INSERT INTO articles (title, link, publish_date, content_hash)
                VALUES (?, ?, ?, ?)
            ''', (title, link, publish_date, content_hash))
            self.conn.commit()
            return True
        return False

6. 完整爬虫架构

import logging
from concurrent.futures import ThreadPoolExecutor


class WeChatCrawler:
    def __init__(self):
        self.proxy_pool = ProxyPool()
        self.limiter = RequestLimiter()
        self.storage = ArticleStorage()
        self.setup_logging()
    
    def setup_logging(self):
        logging.basicConfig(
            level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(message)s'
        )
    
    def crawl_public_account(self, account_name):
        """主爬取流程"""
        try:
            # 策略1: 尝试直接API请求
            articles = self.try_api_crawl(account_name)
            if not articles:
                # 策略2: 使用无头浏览器
                articles = self.try_browser_crawl(account_name)
            
            # 保存数据
            for article in articles:
                self.process_article(article)
                
        except Exception as e:
            logging.error(f"爬取公众号 {account_name} 失败: {e}")
    
    def process_article(self, article):
        """处理单篇文章"""
        try:
            content = self.fetch_article_content(article['link'])
            if content:
                self.storage.save_article(
                    article['title'],
                    article['link'],
                    article['date'],
                    content
                )
        except Exception as e:
            logging.error(f"处理文章失败 {article['title']}: {e}")
    
    def run_batch_crawl(self, account_list, max_workers=3):
        """批量爬取多个公众号"""
        with ThreadPoolExecutor(max_workers=max_workers) as executor:
            futures = []
            for account in account_list:
                future = executor.submit(self.crawl_public_account, account)
                futures.append(future)
            
            for future in futures:
                try:
                    future.result(timeout=300)  # 5分钟超时
                except Exception as e:
                    logging.error(f"任务执行失败: {e}")

注意事项

合规性要求

遵守 robots.txt
控制请求频率，避免对目标服务器造成压力
仅用于个人学习研究，不得用于商业用途

技术要点

使用会话保持登录状态
实现请求重试机制
定期更新 User-Agent
监控IP封禁情况并及时切换

数据质量

实现增量抓取
数据去重处理
异常数据清洗

这种架构结合了直接请求的高效性和无头浏览器的兼容性，能够在遵守平台规则的前提下实现相对稳定的数据采集。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

如何使用python脚本爬取微信公众号文章？
2024-08-24 17:17

东眠的鱼的博客 3、使用定向爬虫爬取微信公众号文章链接当然，我们今天主要探讨的是定向爬虫，即专门针对某一特定网站进行爬取的工具。在爬取微信公众号文章这一领域，存在多种类型的爬虫，包括基于API的爬虫、模拟浏览器行为的...
如何使用python脚本爬取微信公众号文章
2024-06-20 10:24

雅雅酱o的博客 3、使用定向爬虫爬取微信公众号文章链接当然，我们今天主要探讨的是定向爬虫****，即专门针对某一特定网站进行爬取的工具。在爬取微信公众号文章这一领域，存在多种类型的爬虫，包括基于API的爬虫、模拟浏览器行为...
Python 爬虫实战：爬取微信公众号文章（历史推文）
2026-01-02 18:47

python 爬虫工程师的博客通过分析微信接口、处理登录鉴权、解析加密链接等关键技术，实现自动获取公众号文章的标题、发布时间、阅读量、点赞数和正文内容。采用requests发送请求、BeautifulSoup解析HTML、pandas存储数据，并针对微信反爬...
爬取微信公众号文章信息和AI大模型爬取结合，建立行业语料库
2024-09-10 17:48

思考加油站的博客我的任务是数据应用场景语料库的构建，后续会根据搜集的数据应用场景进行数据产品盈利预测。主要利用技术手段，包括爬虫、AI算法等实现这些功能。本文详细讲述我是如何爬取微信公众号合法合规有利信息的。
Python爬取微信公众号文章
2019-01-09 19:46

Crazy__Hope的博客本篇文章使用到的技术: mitmdump + 电脑版微信先分析打开可视化抓包工具, 勾选https代理。然后打开电脑版微信任意点击一个公众号，再点击查看历史消息打开后这样向下滑动右侧的滚动条，同时观察抓包...
python批量爬取公众号文章
2020-06-09 14:32

嗨学编程的博客爬取的方法多种多样，今天和大家分享一种较为简单的方法，即通过微信公众号后台的“超链接”功能进行爬取。可能有些小伙伴没有接触过微信公众号的后台，这里贴张图让大家了解一下到这里有些小伙伴可能会说，我不能...
Python爬虫实战系列：微信公众号文章爬取的5种技术方案总结及代码示例！
2024-10-09 17:23

东眠的鱼的博客整体思路很简单，就是借助公众号发文章的后台来获取别的公众号发布的文章列表。 1.打开公众号后台，新建图文文章2.点击添加超链接，选择公众号，然后分析请求即可简单搜索关键字后，可以看到一个get接口 ...
Python 爬取微信公众号所有文章集合(playwright+自动往下滑动）
2024-02-25 00:16

python.exe的博客今天给你们带来了通过playwright+自动滑动实现爬取微信公众号所有历史文章标题和链接，仅供学习！
Python批量爬取微信公众号文章中的图片
2017-11-08 20:53

dongfuguo的博客总体说明：微信公众号的文章也是个普通的网页。下面的代码以微信公众号“Python小屋”的文章1900页Python系列PPT分享三：选择与循环结构语法及案例（96页）为例，爬取其中的图片...
Python 爬取微信公众号文章和评论 (有源码)
2019-10-29 11:57

不想当码农的程序员的博客关注我，一个仍存梦想的屌丝程序员，每天为你分享高质量编程博客。 follow us for dream 关注我回复 “微信爬虫” 获取源代码背景说明感觉微信公众号算得是比较难爬的平台之一，不过一番折腾之后还是小有收获...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月15日