LLM调用时重复生成、缺乏缓存，如何用装饰器优化？

在LLM服务调用中，相同prompt反复请求导致冗余计算、响应延迟升高、Token浪费及API成本激增——根本原因在于未对确定性输入（如固定system/user prompt + 参数）做结果缓存。传统手动缓存逻辑侵入业务代码，易出错且难以复用；而LLM输出虽具随机性（如`temperature>0`），但对`temperature=0`或确定性模式（如函数调用、JSON Schema约束）完全可缓存。如何在不修改模型调用函数内部、不耦合缓存实现的前提下，自动识别“可缓存调用”，支持LRU过期、序列化键归一化（忽略空格/换行）、多级缓存（内存+Redis）并兼容异步？这正是装饰器模式的理想场景：通过`@llm_cache(ttl=300)`透明拦截输入、生成稳定哈希键、代理执行与缓存读写，兼顾性能、可维护性与可观测性。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

舜祎魂 2026-05-09 16:40

关注

```html

一、现象层：LLM调用冗余的可观测表征

相同 prompt 在 5 分钟内重复触发 ≥12 次（监控平台采样数据）
平均端到端延迟从 850ms 升至 2.3s（含模型排队+推理+网络）
OpenAI API token 消耗中，37% 来自完全重复的 system+user 输入组合（Trace ID 聚类分析）
成本审计显示：temperature=0 的确定性请求占总调用量 64%，却未启用任何缓存

二、归因层：为什么传统缓存方案失效？

方案类型	耦合度	键稳定性	异步支持	可观测性
手写 if cache.get(...) / cache.set(...)	高（侵入业务函数）	差（JSON.dumps 未 normalize whitespace）	需手动 await，易漏	无埋点、无命中率统计
中间件级代理（如 Envoy + Redis）	低（但无法识别 temperature=0 语义）	中（HTTP body 哈希，忽略参数语义）	不透明（gRPC/HTTP/SDK 多协议难统一）	仅网络层指标，无 LLM 语义标签

三、设计层：@llm_cache 装饰器的核心契约

该装饰器需满足以下正交能力：

可缓存性自动判定：基于 temperature==0、response_format.type=="json_object"、tool_choice!="auto" 等规则动态启用缓存
键归一化引擎：对 prompt 字符串执行 re.sub(r'\s+', ' ', s).strip() + json.dumps(sorted_dict, separators=(',', ':'))
多级缓存协同：内存 LRU（maxsize=1000, ttl=300）→ Redis（fallback + 长期存储）
全异步原生支持：同步函数与 async def 均自动适配（通过 inspect.iscoroutinefunction 分支）

四、实现层：关键代码骨架（Python 3.11+）

from functools import wraps, lru_cache
import hashlib
import json
import asyncio
from typing import Any, Callable, Dict, Optional, Union
import redis.asyncio as redis

def llm_cache(ttl: int = 300, maxsize: int = 1000):
    memory_cache = lru_cache(maxsize=maxsize)
    
    async def get_redis_client():
        return redis.Redis(host='localhost', port=6379, db=0, decode_responses=True)

    def normalize_key(args, kwargs) -> str:
        # 提取确定性字段：model, messages, temperature, response_format, tools...
        clean_kwargs = {k: v for k, v in kwargs.items() 
                       if k in ['model', 'messages', 'temperature', 'response_format', 'tools', 'tool_choice']}
        # 归一化 messages 中 content 的空白符
        if 'messages' in clean_kwargs:
            for m in clean_kwargs['messages']:
                if 'content' in m and isinstance(m['content'], str):
                    m['content'] = ' '.join(m['content'].split())
        key_str = json.dumps(clean_kwargs, sort_keys=True, separators=(',', ':'))
        return hashlib.sha256(key_str.encode()).hexdigest()

    def decorator(func: Callable) -> Callable:
        @wraps(func)
        def sync_wrapper(*args, **kwargs):
            if not _is_cacheable(kwargs): 
                return func(*args, **kwargs)
            key = normalize_key(args, kwargs)
            # 先查内存
            cached = memory_cache(key)
            if cached is not None:
                return cached
            # 再查 Redis
            r = asyncio.run(get_redis_client())
            cached_val = asyncio.run(r.get(f'llm:{key}'))
            if cached_val:
                result = json.loads(cached_val)
                memory_cache.cache_clear()  # 简化示例，实际应带值缓存
                memory_cache(key)
                return result
            # 执行并双写
            result = func(*args, **kwargs)
            asyncio.run(r.setex(f'llm:{key}', ttl, json.dumps(result)))
            memory_cache(key)
            return result

        @wraps(func)
        async def async_wrapper(*args, **kwargs):
            if not _is_cacheable(kwargs):
                return await func(*args, **kwargs)
            key = normalize_key(args, kwargs)
            cached = memory_cache(key)
            if cached is not None:
                return cached
            r = await get_redis_client()
            cached_val = await r.get(f'llm:{key}')
            if cached_val:
                result = json.loads(cached_val)
                memory_cache(key)
                return result
            result = await func(*args, **kwargs)
            await r.setex(f'llm:{key}', ttl, json.dumps(result))
            memory_cache(key)
            return result

        return async_wrapper if asyncio.iscoroutinefunction(func) else sync_wrapper
    return decorator

五、验证层：端到端效果对比（A/B 测试）

graph LR A[原始调用] -->|QPS=42
Avg Latency=2140ms
Cache Hit=0%| B[启用 @llm_cache] B --> C{可缓存判定} C -->|temperature=0 ✓| D[归一化键 → SHA256] C -->|tool_choice=required ✓| D D --> E[LRU 内存查询] E -->|Miss| F[Redis 查询] F -->|Hit| G[返回 JSON 解析结果] F -->|Miss| H[调用 OpenAI SDK] H --> I[双写内存+Redis] I --> G

六、演进层：生产就绪增强项

可观测性注入：自动注入 OpenTelemetry Span，打标 llm.cache.hit_ratio、llm.cache.level（memory/redis/miss）
缓存穿透防护：对高频 miss key 启用布隆过滤器（RedisBloom）预检
语义去重扩展：接入 sentence-transformers 计算 prompt embedding 余弦相似度（>0.98 视为等价）
灰度发布能力：支持按 model 或 user_id 百分比开启缓存，避免冷热 key 不均

```

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

Python Magentic库：用装饰器简化LLM调用，实现声明式AI编程
2026-05-08 02:11

倩Sur的博客在AI应用开发中，大语言模型（LLM）的集成常涉及繁琐的提示词构造、API调用和结果解析。传统指令式编程需要开发者关注交互细节，而声明式编程范式则将重点转向定义“做什么”而非“怎么做”。通过利用Python装饰器和...
SGLang多语言支持情况：中文生成优化部署教程
2025-12-07 04:37

凡狗蛋的博客本文介绍了如何在星图GPU平台上自动化部署SGLang-v0.5.6镜像，以优化大语言模型的中文生成性能。该镜像通过RadixAttention等技术，能有效提升多轮对话和批量处理的推理效率，其核心应用场景之一是快速、准确地从中文...
大语言模型实战（十三）——MCP工具系统完全指南：从零构建AI可调用的工具生态（FastMCP+LLM工具调用循环）
2026-01-05 22:20

小陈phd的博客《MCP工具系统完全指南：从零构建AI可调用的工具生态（FastMCP+LLM工具调用循环）》当前AI应用面临一个核心痛点：LLM虽然能理解用户需求，但无法直接执行复杂的业务逻辑。传统方案是硬编码工具调用逻辑，导致代码...
【Agent】智能体：在循环中自主调用工具的LLM
2025-12-14 21:23

山顶夕景的博客智能体将不断重复这个 Thought -> Action -> Observation 的循环，将新的观察结果追加到历史记录中，形成一个不断增长的上下文，直到它在Thought中认为已经找到了最终答案，然后输出结果。 Thought (思考)：这是...
2.6 Python 装饰器与函数式编程：AI 开发必备技能
2026-04-20 15:18

词元Max的博客 装饰器本质上是接收函数并返回函数的高阶函数，与Java注解不同，它在函数定义时立即执行。文章首先通过简单示例展示装饰器的基础用法，然后进阶讲解带参数装饰器的三层嵌套结构，以及类装饰器的实现方式。最后以...
生产环境 LangGraph 的性能优化：并发、缓存与编排策略
2026-05-09 21:44

AI大数据智能洞察的博客你有没有过这样的经历：花了两周时间做了一个LangGraph多Agent客服系统，Demo跑起来丝滑得很，输入问题1秒出结果，老板看了连连点头，说马上上线给全公司客户用。结果上线第一天，峰值并发才到30，系统就卡成了PPT，...
LLM应用Token成本优化：从监控到缓存与模型路由的实战策略
2017-03-20 14:55

weixin_30439067的博客在构建基于大语言模型（LLM）的应用时，API调用成本是开发者面临的核心挑战之一。其成本主要由输入和输出的Token数量决定，并受到模型定价、上下文长度和提示词设计的多重影响。理解Token成本构成是进行有效优化的...
Cogito 3B部署教程：Ollama模型冷启动优化——预加载与缓存策略
2026-01-24 01:51

DarthP的博客本文介绍了在星图GPU平台上自动化部署Cogito 1预览版Llama 3B镜像...通过实施预加载与缓存策略，可显著提升该模型的冷启动速度，使其能够快速响应，适用于需要即时交互的AI助手、编程辅助或技术问答等应用场景。
OpenCode性能调优：针对特定编程语言的优化
2026-01-16 01:09

南风寺山的博客本文介绍了基于星图GPU平台自动化部署opencode镜像的实践方法，结合vLLM与Qwen3-...通过配置优化与语法感知增强，显著提升AI编程助手在代码补全、错误修复等场景下的响应速度与生成质量，适用于本地化高效AI应用开发。
AI Agent Harness模型推理缓存优化
2026-05-10 00:33

AI大数据智能洞察的博客本文要分享的AI Agent Harness模型推理缓存优化框架，正是针对上述“重复Token浪费、重复推理延迟、中间结果无法复用”三大核心痛点设计的一套全链路工程化方案。这套框架的核心思路不是“推翻现有的LangChain/...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月9日