트랜스포머 어텐션 q,k,v 의 수학적 근거?

  • #3854681
    90 76.***.204.204 243

    랭귀지 모델에서 단어들을 벡터로 생각해주는것도 왜 그게 그렇게 모델링이 성공적인지 수학적 해석으로 설명하기 쉽지 않다고 하던데. 어텐션의 q,k,v 도 왜 그 모델이 챗지피티를 비롯해서 그렇게 성공적인지 수학적으로 해석해서 이해하기가 쉽지 않은듯. 그렇다고 저자들이 순전히 통찰력이나 직관만으로 가져다 쓰거나 한건 아닐텐데…

    수학적 근거로 연결해서 설명하는 문헌 아는거 있으면 소개좀 바랍니다. 모든게 다 당연히 내적이니 물리학의 메트릭 텐서와 밀접하게 연관되어 잇는데…
    그나마 이 유튜버 설명이 가장 많이 근접한건가

    • aa 121.***.21.16

      감사합니다.

    • aa 121.***.21.16

      오호 나도 트랜스포머를 개발하게 된 저자의 직관이 무엇일까 생각해보았는데 당신도 그런 생각을 했군요.

      • 90 76.***.204.204

        직관이 많은 경우에 수학적인 리고러스한 논리를 빛의 속도로 앞서 가는거 같아요. 저것도 직관적으로 따라가면 “어? 그렇게 한번 해볼수도 있겠네?” 라고 수긍하게 되지만, 수학적으로 왜 저런게 가능하냐 해석하는것은 또 다른 문제같습니다. 근데 수학적으로 해석할 줄 알면 그걸 응용하는데 체계를 갖출수 있으니까 다른 데에도 응용하기도 훨씬 쉬워질수도 있겠다는 생각이 듭니다. 내가볼때 저것의 수학적 뒷밭침은 메트릭 텐서에요. 원글의 유튜버도 어느정도 모호하게 그걸 이해하고 있어요. 중력이론에서 가장 유명한 텐서. 이 텐서를 다른 텐서로 바꾸어보면 저 저자들의 아이디어가 확장될수도 있고 좀더 효율적으로 계산하는 방법도 찾을 가능성이 있겠죠. 메트릭 텐서는 아주 많은 텐서들중에 가장 유명한 텐서중 하나죠. 재밌는건 원 저자들이 쓴 논문은 보니까 전혀 텐서에 대한 언급은 없고 어텐션에 대한 웨이팅 매트릭스로만 접근해서 논문이 기술되어있는거 보니까 거의 직관에 의존해서 저 트랜스포머 공식이 나온거 같군요. 저자중에 한사람이 직관에 크게 기여했겠져

    • . 67.***.118.222

      없음