初探大语言模型 ctycheer 收录于 人工智能2026-01-17 约 100 字 预计阅读 1 分钟 这里是文章内容:Attention(Q,K,V)=softmax(QKTdk)V \text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dkQKT)V行内公式也可以:E=mc2E=mc^2E=mc2