구글(Google)의 제미나이(Gemini) AI 모델

최근 구글 딥마인드의 첫 번째 작품인 제미나이(Gemini) AI 모델을 발표했다.

제미나이(Gemini)의 어떤 모델으로 만든걸까?

멀티모달(multimodal) AI 모델

텍스트, 이미지, 영상, 음성, 코드(code) 등 다양한 데이터 모달리티를 동시에 받아들여 학습하고 사고하는 기술입니다.

추가적으로 1.6조 개의 파라미터를 가진 대규모 언어 모델(LLM) 모델 또한, 추가적으로 가지고 있습니다.

그렇다면 챗 지피티(Chat GPT)는 어떤 방식의 모델일까?

대규모 언어 모델( Large Language Model )

챗 지피티는 제미나이의 파라미터 규모보다 적은 약 5000억 파라미터를 가지고 있습니다.

방대한 양의 텍스트 데이터로 훈련된 고급 AI 모델로, 인간과 유사한 응답을 생성할 수 있습니다.

차이점은?

GPT의 경우, 텍스트에서 텍스트를 생성하는 모델에 GPT vision처럼 이미지를 관리하는 모델이 별도로 존재하지만,

제미나이의 경우, 기초 바닥부터 멀티 모달로 만들어졌기 때문에 물흐르듯 자연스럽게 텍스트, 이미지, 영상, 음성 코드(code) 등의 다양한 데이터를 동시에 받아들여 처리하는 모델이라고 볼 수 있습니다.

하정우 네이버클라우드 AI이노베이션 센터장은

"GPT-4는 5-샷(문제 해결 예시 5개를 모델에 제시하고 문제를 푸는 방식)을 기준으로 한 반면에,

제미나이는 연쇄적 사고(CoT)로 (문제 풀이를 32번 반복하는) 'CoT@32'를 진행했기 때문에 공정한 비교가 아니다"

라고 하는 논란이 있습니다.

실제로 얼마만큼의 과장이 되어 있는지 확인해보자.

ChatGPT-4와 Gemini Ultra의 MMLU 동등한 비교

실제로 비교해 본다면, Gemini Ultra는 GPT-4에 비해 살짝 밀리는 모습을 보여주고 있다.(Sore Eval)

다른 방식으로 비교를 해봐도 Gemini Ultra는 GPT-4에 비해 살짝 밀리는 모습을 보여줌.(Chain-of-Thought@32)

또다른 방식으로 비교를 하자 Gemini Ultra는 GPT-4를 이기면서 인간 전문가 점수 또한, 뛰어 넘는 점수를 보여줌.( Chain-of-Thought@32 (Uncertainty-Routed))

어느 부분들에서 동등한 비교를 하지 않았다고는 하지만, 다른 성능 부분들(32개 중 30개)에서 어느정도 뛰어난 부분이 있다고 하기 때문에 ChatGPT보다 어느 정도 앞서고 있다고 생각할 수 있습니다.

현재 Gemini에서는 3가지의 모델을 내놓을 예정이라고 합니다.

Ultra: 챗 지피티 4버전과 비슷한 성능을 낼 수 있습니다.

Pro: 챗 지피티 3.5버전으로 비슷한 성능을 낼 수 있고, Ultra보다 작은 모델로써, 현재 바드에 적용된 모델입니다.

Nano: 작은 디바이스로써, 인터넷 없이 사용 가능하게 출시하는 것이 목표라고 함.

Horongbool