关于#人工智能#的问题：transformers可以部署gguf格式的文件吗

transformers可以部署gguf格式的文件吗，具体如何实施？请问ai业内人士有没有什么经验，比如transformers和llama.cpp哪个更常用？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2025-02-05 12:25
关注
中午好🌞🌞🌞
本答案参考通义千问

Transformers库本身并不直接支持GGUF（Ggml Quantized Unified Format）格式的文件，因为Transformers主要用于处理Hugging Face模型以及一些标准的模型格式。然而，你可以通过一些额外的步骤来使用GGUF格式的文件。同样地，llama.cpp是一个针对特定模型（如Llama系列模型）进行优化的C++库，它支持GGUF格式。

Transformes 和 GGUF 格式的兼容性

Transformers 主要支持 .bin, .pt, .safetensors 等格式。
GGUF 是一种由GGML衍生出来的量化统一文件格式，通常用于轻量级部署和高效推理。

如何使用GGUF格式的文件

如果你想要使用GGUF格式的文件，可能需要先将模型转换为适合Transformers使用的格式，或者使用支持GGUF格式的库如 llama.cpp。

使用llama.cpp

安装llama.cpp：

git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp make

加载GGUF格式的模型：

#include "llama.h" int main() { struct ggml_init_params params = { /*.mem_size =*/ 2048*1024*1024, /*.mem_buffer =*/ NULL, /*.no_alloc =*/ false, }; struct ggml_context *ctx = ggml_init(params); struct ggml_tensor *model = ggml_load_ggu("path/to/model.gguf"); // 继续加载和使用模型 // ... ggml_free(ctx); return 0; }

使用模型进行推理：

// 假设你已经加载了模型 for (int i = 0; i < num_tokens_to_generate; i++) { struct ggml_tensor *output = llama_eval(ctx, model, input_ids, seq_len); int next_token = llama_sample_top_p(&rng, output, top_p); input_ids[seq_len++] = next_token; printf("%c", next_token); // 或者输出到文件 }

Transformes 和 llamas.cpp 的比较

Transformers：

优点：强大的Python库，易于集成，有丰富的文档和社区支持。
缺点：对于某些硬件可能不是最优的选择，特别是在资源受限的情况下。

llama.cpp：

优点：针对特定模型进行了优化，支持GGUF格式，可以在没有GPU的情况下运行，适用于资源受限的环境。
缺点：可能不如Transformers那样灵活和易用，特别是对于复杂的应用场景。

总结

如果你需要使用GGUF格式的文件，并且对性能和资源利用有较高要求，那么使用llama.cpp会是一个不错的选择。如果追求易用性和灵活性，Transformers仍然是一个非常好的选择，尽管它不直接支持GGUF格式。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

AI Transformers 架构体系权重文件类型 safeterson和gguf格式转换【2-1】
2025-04-16 14:38

Michaelwubo的博客 AI Transformers 架构体系，kvq cache，token的生成逻辑，与显存关系【2】
Hugging Face 模型格式全解析：从 PyTorch 到 GGUF
2025-03-20 10:02

mingo_敏的博客 Hugging Face 生态支持多种模型格式，以满足不同场景下的存储、部署和推理需求。以下是主流格式的技术解析与演进脉络：Hugging Face 模型格式的演进体现了安全性、效率和兼容性的平衡：根据需求选择格式：追求安全用...
AI大模型：一文搞懂大模型文件存储格式新宠GGUF
2024-10-14 15:11

Llama-Turbo的博客本文大介绍大模型文件存储格式新宠GGUF，目前 Huggingface Transformers 已经支持了GGUF格式，同时，像谷歌的Gemma、阿里的Qwen等模型默认已经提供了GGUF格式文件，可见其发展势头如日中天。
揭秘GGUF：AI大模型文件存储格式的革命性创新！
2025-04-11 19:16

AGI大模型老王的博客 GGUF（GPT-Generated Unified Format）是由 Georgi Gerganov（著名开源项目llama.cpp的创始人）定义发布的一种大模型文件格式。GGUF 继承自其前身 GGML，但 GGML 格式有一些缺点，已被完全弃用并被 GGUF 格式取代。...
MiniCPM-V量化指南：int4和GGUF格式的16种尺寸模型选择
2025-09-10 20:57

史跃骏Erika的博客在AI模型部署的实践中，我们经常面临一个核心矛盾：**强大的模型性能**与**有限的硬件资源**之间的平衡。MiniCPM-V作为端侧多模态大模型的佼佼者，通过先进的量化技术成功解决了这一难题。量化（Quantization）是...
第四十四章：AI模型的“身份证”：GGUF格式结构与参数深度解析
2025-08-04 00:26

爱分享的飘哥的博客本文将为你深度解密GGUF（GGML Universal Format）这种新型模型文件格式的完整结构、数据布局、以及其中包含的各种参数信息。我们将理解GGUF如何通过灵活的头部、元数据、图信息和分层张量数据，实现模型的高效加载...
【AI大模型应用学习笔记】基于llama.cpp的模型转换为GGUF格式+本地ollama部署和open-webui部署
2025-05-13 09:37

墨宇Logic的博客使用llama.cpp框架转换hf模型格式为GGUF并通过ollama实现本地部署调用和使用open-webui界面调用案例教程
从加载到对话：使用 Transformers 本地运行量化 LLM 大模型（GPTQ & AWQ）
2024-10-10 23:37

Hoper.J的博客（无需显卡）使用 Transformers 在本地加载具有 70 亿参数的 LLM 大语言模型，通过这篇文章你将学会用代码创建属于自己的 GPT。
AI大模型新趋势：Hugging Face大模型转换为GGUF，为何备受关注？
2025-04-22 15:23

AI大模型-王哥的博客它是一种新型的文件格式，通常用于表示和存储神经网络模型及其相关数据。它是一种统一的、通用的图形格式，旨在简化不同深度学习框架和硬件平台之间的模型交换和转换。GGUF 的主要目标是提供一个标准化的格式，使得...
机器学习模型文件格式全景解析：从训练到部署的格式选择指南
2025-08-07 09:45

♢.＊的博客安全性成为基础要求：随着模型共享的普及，像 Safetensors 这样的安全格式将逐步取代 pickle-based 格式。自适应硬件优化：未来的格式可能会包含更多硬件相关的元数据，实现模型在不同设备上的自动优化。统一标准的...
【人工智能】本地部署 KTransformers并加载大模型笔记
2025-08-16 10:08

从善若水的博客本文介绍了本地部署KTransformers框架并加载大模型的详细步骤。首先说明该框架特点及适用场景，然后分步骤讲解环境搭建：包括CUDA安装、CMake配置、conda环境创建、PyTorch等依赖安装。接着介绍从源码编译安装...
Llama 4 本地部署全流程实战：vLLM × GGUF × Ollama 多方案跑通指南
2025-04-17 15:34

观熵的博客本篇文章不讲理论、不玩猜想，只围绕**真实案例**和**完整流程**，手把手带你跑通 **Llama 4 的三种本地部署路径**：vLLM 高性能部署、llama.cpp CPU 推理、Ollama 快速测试，并汇总**申请地址、模型下载、API 调试...
3B参数+GGUF格式：2025企业AI轻量化部署革命
2025-12-01 07:01

芮奕滢Kirby的博客 IBM Granite-4.0-Micro以3B参数实现企业级性能，结合GGUF格式将AI部署成本降低65%，重新定义中小企业智能转型门槛。 ## 行业现状：从参数竞赛到实用主义 2025年企业AI部署正经历深刻变革。据Gartner最新报告，仅12%...
本地基于GGUF部署的DeepSeek实现轻量级调优之二：检索增强生成（RAG）
2025-02-11 22:09

搏博的博客针对deepseek模型的微调还是原生训练，总结如下：场景推荐方案可行性直接训练模型使用原始PyTorch模型文件✅快速适配模型行为提示工程/RAG✅必须基于GGUF的轻量级调整转换为PyTorch格式（如支持）或使用外部增强x...
GGUF文件解析[可运行源码]
2025-11-23 14:20

通过提供一种标准化的文件格式，GGUF不仅提升了大模型的部署效率，还为机器学习和人工智能的应用提供了更加广阔的可能性。开发者和研究人员可以更加专注于模型的创新，而不是花费大量时间处理模型格式转换的问题。 ...
70亿参数+GGUF格式：IBM Granite-4.0-H-Tiny重塑企业AI部署范式
2025-12-12 05:08

魏兴雄Milburn的博客 IBM最新发布的70亿参数大模型Granite-4.0-H-Tiny，通过GGUF量化格式实现本地化部署成本降低65%，重新定义中小企业智能转型的技术门槛。 ## 行业现状：企业AI部署的"三重困境" 2025年企业级AI部署正经历深刻变革。据...
本地离线部署私人AI：从原理到实践的完整指南
2025-09-13 00:32

应用市场的博客本地离线部署私人AI已成为保护数据隐私和降低API成本的热门选择。本文分析了三种主流部署方案：1) 使用Ollama一键安装运行模型，适合新手；2) 使用LLaMA.cpp实现更灵活的模型转换和量化；3) 直接使用Transformers库...
情境感知AI原生应用的边缘计算部署：如何解决云端延迟问题？实战架构设计
2025-09-30 17:47

AI算力网络与通信的博客你是否遇到过这样的场景？智能工厂的设备传感器数据上传到云端做故障预测，结果延迟500ms导致错过最佳停机检修时间；智能座舱的语音助手需要结合当前车速、空调状态、驾驶员历史偏好生成...这些情境感知AI原生应用。
本地DeepSeek模型GGUF文件转换为PyTorch格式
2025-02-16 03:45

搏博的博客接前文，我们在本地Windows系统上，基于GGUF文件部署了DeepSeek模型（DeepSeek-R1-Distill-Qwen-1.5B.gguf版本），但是GGUF是已经量化的版本，我们除了对其进行微调之外，无法对其训练，那么还有没有其他办法对本地...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月5日

关于#人工智能#的问题：transformers可以部署gguf格式的文件吗

4条回答 默认 最新

Transformes 和 GGUF 格式的兼容性

如何使用GGUF格式的文件

使用llama.cpp

Transformes 和 llamas.cpp 的比较

总结

问题事件

4条回答默认最新