Rasa algorithm whiteboard - attention 2설명 단, IR analogy와 다른 점은, K, Q, V는 결국엔 항상 동일한 벡터라는 것. (self-attention이기 때문) sim(query, key)로 단순히 dot product를 쓰게 될 경우, 사실상 최적화...