GPT의 fine-tuning에 대해서 아시는 분들만 봐 주세요

  • #3802336
    공대 107.***.40.126 556

    안녕하세요.

    제가 이해하기로는, GPT 모델의 pretraining을 위하여, next token prediction task가 필요하다고 들었습니다. 예를 들어,

    Input -> The GPT models are general-purpose language models that can perform … (2048 tokens)

    Output-> GPT models are general-purpose language models that can perform a … (2048 tokens)

    Next token prediction task를 이용하여, 우리는 pre-training을 할 수 있다고 생각을 합니다. 하지만, Q and A 문장들을 이용하여 어떻게 GPT model을 fine-tuning 하는지를 잘 모르겠습니다.

    예를 들어, 저의 question과 answer가 다음과 같다고 할때,

    Q) What is the GPT model?

    A) The GPT models are general-purpose language models that can perform a broad range of tasks from creating original content to write code, summarizing text, and extracting data from documents.

    이 경우, Question이 GPT 모델의 input이 되고, Answer가 이 모델의 output이 되어서 fine-tuning을 하나요? 아니면,

    Question과 answer를 아래와 같이 연결하고, fine-tuning을 하게 되나요 (이 경우에는 next token prediction task가 되는데요)?

    Input -> What is the GPT model? The GPT models are general-purpose language models that can perform a broad range of tasks from creating original content to write code, summarizing text, and extracting data from documents.

    Output-> is the GPT model? The GPT models are general-purpose language models that can perform a broad range of tasks from creating original content to write code, summarizing text, and extracting data from documents. [Padding]

    어떤 방식으로 GPT 모델을 fine-tuning 했는지 궁금합니다.

    • 지나가다 174.***.112.72

      나도 궁금하다

    • agdsf 192.***.10.204

      후자가 맞습니다. GPT는 question이나 answer에 대한 explicit 한 훈련을 하지 않습니다. 단지 generative model일뿐.