初探大语言模型

这里是文章内容:

Attention(Q,K,V)=softmax(QKTdk)V \text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

行内公式也可以:E=mc2E=mc^2