GLM-Z1-32B-0414和GLM-Z1-Rumination-32B-0414模型乱码

GLM-Z1-32B-0414和GLM-Z1-Rumination-32B-0414模型输出全部是叹号或乱码。

模型已经采用官方的下载方式重新下载3次，无法解决乱码问题。而且cpu上运行正常，输出正常。

下载的代码为（GLM-Z1-Rumination-32B-0414官方文件中的代码加cachedir）：

tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH,cache_dir="./cache", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, cache_dir="./cache", device_map="auto")

推理的代码为：

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2,3,4,5,6"

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

MODEL_PATH = "/mnt/data/zhaoshukuo/try/GLM-Z1-32B-0414/cache/models--zai-org--GLM-Z1-32B-0414/snapshots/8eb2858992c1f749e2a6d4075455decc2484722d"

quantization_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_compute_dtype="float16", bnb_4bit_use_double_quant=True, bnb_4bit_quant_type="nf4" # 不要加 llm_int8_enable_fp32_cpu_offload )

tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, trust_remote_code=True, quantization_config=quantization_config, device_map="auto" )

message = [{"role": "user", "content": "你好"}]

inputs = tokenizer.apply_chat_template( message, return_tensors="pt", add_generation_prompt=True, return_dict=True, ).to(model.device)

generate_kwargs = { "input_ids": inputs["input_ids"], "attention_mask": inputs["attention_mask"], "max_new_tokens": 200, "do_sample": False, }

out = model.generate(**generate_kwargs)
print(tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))

输出均都是叹号，而且gpu上运行logits均值为0.0184，低于cpu，在gpu上8bit 量化和原版无量化模型输出也存在乱码情况。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-09-30 16:21
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

乱码问题解决方案

根据你的描述，乱码问题似乎与模型本身没有直接关系，而是与输出有问题。以下可能是解决方案：

1. 检查模型版本和参数

确认使用的模型版本是否正确，且参数设置是否合理。特别是如果你使用的是自定义参数或模型。

2. 检查输入数据和处理流程

检查输入数据是否正确，数据类型是否匹配，以及处理流程是否正确。可能的原因包括：

输入数据编码问题
输入数据类型问题（如shape、dtype等）
处理流程问题（如数据增强、数据预处理等）

3. 检查输出设置

检查输出设置是否正确，输出类型是否匹配。特别是如果你输出的是文本，可能需要设置编码和字符集。

4. 检查环境配置

检查环境配置是否正确，特别是 CUDA 和 cuDNN 的版本是否匹配。如果你使用的是 GPU 模型，需要检查 CUDA 的版本，以及 cuDNN 的版本是否兼容。

5. 检查错误日志

检查错误日志，看看是否有任何异常信息或者错误提示。如果有，可以根据提示进行修复。

核心代码

import torch import torch.nn as nn # 模型定义 class MyModel(nn.Module): def __init__(self): super(MyModel, self).__init__() self.encoder = nn.TransformerEncoderLayer(d_model=512, nhead=8, dim_feedforward=2048, dropout=0.1) self.decoder = nn.TransformerDecoderLayer(d_model=512, nhead=8, dim_feedforward=2048, dropout=0.1) self.drop = nn.Dropout(p=0.1) self.fc = nn.Linear(512 * 8, 8) def forward(self, src, tgt): encoder_output = self.encoder(src) decoder_output = self.decoder(tgt, encoder_output) decoder_output = self.drop(decoder_output) output = self.fc(decoder_output[:, -1, :]) return output

注意

本代码仅供参考，可能需要根据具体场景进行修改。另外，请确保你有必要的环境和依赖包。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

深度解析GLM-Z1-Rumination-32B-0414：开源大模型推理能力的突破性进展
2025-11-29 02:33

卓秋薇的博客近日，zai-org团队在Hugging Face平台发布了全新的GLM-Z1-Rumination-32B-0414模型，作为GLM-4系列的重要成员，该模型凭借320亿参数规模和创新的"深度反思"能力，在复杂任务处理领域展现出可与GPT-4o、DeepSeek-V3等...
打破速度瓶颈，GLM-Z1-32B-0414 将大模型推理带入实时时代
2025-04-18 11:30

BuluAI的博客而这次 GLM-Z1-32B 给出了一个接近理想解的答案。推理不再是性能瓶颈，它正变得“可实时、可交互、可商用”。未来的 AI，将不再只是一个“反应快的搜索框”，它可能成为一个懂你所思，快你所想的合作者。欢迎留言、...
清华全新开源GLM-4/Z1-32B-0414大模型概览
2025-04-16 10:35

Open-source-AI的博客 GLM模型家族通过其强大的推理能力和广泛的适用性，为自然语言处理领域提供了强大的工具。无论是大规模的32B模型还是轻量级的9B模型，GLM系列都能满足不同场景下的需求，推动了开源大模型的发展和应用。
农业科技应用：aws-doc-sdk-examples中的IoT Events示例
2025-08-14 09:00

俞蓉云Beatrice的博客本文将带你全面解构GLM-Z1-Rumination-32B-0414——这款仅需320亿参数却能媲美GPT-4o的开源模型，如何通过创新架构设计实现效率与深度思考的完美平衡。读完本文，你将掌握： - 模型架构的五大核心创新点 - 本地部署...
GLM-Z1-Rumination：32B开源AI的深度反思革命
2026-01-08 04:12

侯天阔Kirstyn的博客智谱AI（THUDM）推出全新开源模型GLM-Z1-Rumination-32B-0414，以320亿参数规模实现媲美GPT-4o的深度推理能力，首次将"反思机制"引入开源模型体系，标志着国产大模型在复杂问题解决领域实现重大突破。 ## 行业现状 ...
600元显卡秒变AI工作站！GLM-Z1-Rumination-32B本地化部署全攻略
2025-08-12 09:01

柯新其Darell的博客 - 32B参数大模型在消费级硬件的部署方案 - 显存优化技巧：从24GB到16GB的突破方法 - 完整工作流：从环境配置到函数调用的全流程实现 - 实战案例：数学推理/代码生成/深度调研三大场景测试 ##...
重磅！第四代GLM发布！清华大学THUDM发布 GLM-4和 GLM-Z1
2025-04-16 09:21

吴脑的键客的博客 GLM 系列迎来了新成员–GLM-4-32B-0414 系列型号，拥有 320 亿个参数。其性能可与 OpenAI 的 GPT 系列和 DeepSeek 的 V3/R1 系列相媲美。它还支持非常方便用户的本地部署功能。GLM-4-32B-Base-0414 在 15T 的高质量...
智谱沉思模型GLM-Z1-Rumination 与 DeepSeek-R1对比
2025-04-12 12:21

charles666666的博客 ✅ 科研辅助（模拟实验逻辑推导）五、其他差异细节 GLM-Z1-Rumination DeepSeek-R1 语言处理强制中文/英文分离，输出更规范偶尔中英文混杂，但跨语言能力强安全性直接输出结果，风险较低需额外过滤思考过程中...
GLM-Z1-Rumination：32B开源AI的深度思考黑科技
2026-01-10 04:13

葛习可Mona的博客 **导语**：THUDM（清华大学知识工程实验室）正式发布GLM-Z1-Rumination-32B-0414开源大模型，以320亿参数规模实现媲美GPT系列的深度思考能力，尤其在复杂问题解决和研究型写作领域展现突破性进展。 ## 行业现状：大...
家庭AI新标杆：GLM-Z1-Rumination-32B-0414模型全面超越同类产品
2025-11-10 02:13

幸生朋Margot的博客在AI模型层出不穷的今天，一款名为GLM-Z1-Rumination-32B-0414的模型正悄然改变家庭用户的智能体验。这款模型不仅被业内人士称为"某类产品的升级替代品"，更在多个核心能力上实现了突破性提升，为普通用户带来了专业...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月30日

GLM-Z1-32B-0414和GLM-Z1-Rumination-32B-0414模型乱码

5条回答 默认 最新

乱码问题解决方案

1. 检查模型版本和参数

2. 检查输入数据和处理流程

3. 检查输出设置

4. 检查环境配置

5. 检查错误日志

核心代码

注意

问题事件

5条回答默认最新