初探大语言模型

2026-01-17 约 100 字预计阅读 1 分钟

这里是文章内容：

\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

行内公式也可以： $E=mc^2$