Jonathan Star 2023-05-24 09:48 采纳率: 73.8%
浏览 9
已结题

gpt回答问题基本都可以回答,是因为之前就训练过这个问题,还是他能理解问题,然后 从他训练过的两个知识点结合成一个回答呢

gpt回答问题基本都可以回答,是因为之前就训练过这个问题,还是他能理解问题,然后 从他训练过的两个知识点结合成一个回答呢

比如我的问题
为啥 要写 max_source_length=128 2的几次方
在深度学习中,常常将输入序列的长度进行限制,其中常见的做法是将序列的长度设置为2的幂次方。这是由于在Transformer模型中,使用自注意力机制(self-attention)时,计算注意力权重的操作涉及到矩阵乘法和softmax函数的计算,而这些操作在实现时通常会使用高效的矩阵运算库,如CUDA等。
GPU和其他硬件设备在进行矩阵运算时可以获得更好的性能,尤其是在矩阵的尺寸为2的幂次方时。这是因为GPU在并行计算方面表现出色,而矩阵的尺寸为2的幂次方可以更好地与GPU的硬件并行处理能力对齐。
因此,将输入序列的长度设置为2的幂次方,可以提高模型的计算效率和训练速度。这样做有助于充分利用GPU等硬件设备的并行计算能力,从而提高模型的训练和推理性能。
当然,具体选择何种长度还需综合考虑模型的架构、任务需求和可用资源等因素。在实践中,通常会根据具体情况进行调整和权衡。

是 “为啥 要写 max_source_length=128 2的几次方” 这个已经是训练数据集里面了
还是 “max_source_length 是什么?” “为什么gpu算2的幂次方快” 这些问题在训练时候有了

文档:gpt回答问题基本都可以回答,是因为之?..
链接:http://note.youdao.com/noteshare?id=a7dcc1830a1a90327015e0c011781317&sub=86A6C0AE994141A6A009A5D63F63EEB6

  • 写回答

1条回答 默认 最新

  • 创意程序员 2023-05-24 09:58
    关注

    基于训练,但不一定是训练过完全一样的问题,它会基于对问题的语义的理解,结合之前训练过的同类问题的解,生成当前问题的解。训练数据足够多,覆盖了这类问题,它就能回答。如果没覆盖到,或者理解错误,它就一本正经地胡说八道。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 6月8日
  • 已采纳回答 5月31日
  • 创建了问题 5月24日

悬赏问题

  • ¥15 ansys fluent计算闪退
  • ¥15 有关wireshark抓包的问题
  • ¥15 需要写计算过程,不要写代码,求解答,数据都在图上
  • ¥15 向数据表用newid方式插入GUID问题
  • ¥15 multisim电路设计
  • ¥20 用keil,写代码解决两个问题,用库函数
  • ¥50 ID中开关量采样信号通道、以及程序流程的设计
  • ¥15 U-Mamba/nnunetv2固定随机数种子
  • ¥15 vba使用jmail发送邮件正文里面怎么加图片
  • ¥15 vb6.0如何向数据库中添加自动生成的字段数据。