2025-04-08
IDOPRESS
GPT-4o,제미나이2.0보다 우수 주장
공개버전과 개발자버전 성능 달라 의혹
메타 생성AI총괄 “절대 사실 아냐” 강조
메타 로고 메타가 지난 5일(현지시간) 공개한 최신 인공지능(AI) 거대모델(LLM) 라마4가 성능 부풀리기 의혹에 휩싸였다. 소문이 확산되자 메타는 성능 조작설은 사실이 아니라며 진화에 나섰다.
라마4는 메타가 최근 공개한 자사의 최신 LLM이다. 메타의 설명에 따르면 라마4는 베헤모스,매버릭,스카우트로 나뉘어 있다. 메타는 현재 학습을 진행 중인 베헤모스를 제외하고 매버릭과 스카우트 두 모델을 오픈소스로 다양한 LLM 성능을 비교평가하는 플랫폼인 LM 아레나에 공개했다.
베헤모스는 매개변수가 2조개인 거대모델로 지금까지 공개된 라마 중 가장 많은 매개변수를 자랑한다. 2023년 3월 출시된 오픈AI의 GPT 4의 1조7600개보다도 많다. 매버릭과 스카우트는 베헤모스를 활용해 만든 것으로 알려졌다. 매버릭은 GPT-4o,제미나이 2.0 플래시보다 우수한 것으로 알려졌다. 소형 모델 스카우트는 추론 처리에 최적화됐으며 젬마3,제미나이 2.0 플래시라이트 등에 비해 우수한 성능을 달성했다는게 메타의 설명이다.
메타의 공개 후 일부 AI 연구자·개발자들이 라마의 성능에 의혹을 제기하기 시작했다. 메타가 공개한 매버릭과 개발자들이 실제 사용 가능한 매버릭에서 ‘극명한’ 성능 차이가 발생했다는 것이다. 테크 크런치는 “메타는 LM 아레나에 등록된 매버릭이 ‘실험적인 대화형 버전’임을 명시했는데,이는 ‘맞춤형 벤치마크 버전’을 따로 내놓고 실사용자에겐 ‘기본’ 버전만 제공한 것으로 보인다”고 전했다.
테크크런치에 따르면 메타가 라마4의 성능을 부풀렸다는 소문은 중국 소셜미디어에서 처음 제기됐다. 메타의 벤치마크 성능 부풀리기에 항의해 회사를 그만뒀다는 한 유저의 글로,이 유저는 조엘 피노 메타 AI연구 총괄이 지난 2일 사직한 것도 같은 이유라고 주장했다.
일부 개발자들은 자신의 X에 LM 아레나에서본 매버릭과 직접 다운로드받아 사용한 버전의 다른점을 지적했다. LM 아레나 버전이 이모티콘을 더 많이 사용하고,장황한 답변을 내놨다는 것이다. 그러면서 성능 검증용과 실제 배포용 모델이 다를 경우 정확한 성능 예측이 어려워져 개발자들이 어려움을 겪을 수 있다고 지적했다.
논란이 확산되자 메타는 급히 진화에 나섰다. 메타 생성AI 총괄인 아마드 알 달레는 X를 통해 “테스트 셋에서 (LLM을) 훈련시켰다는 주장도 접했는데 이는 사실이 아니며 메타는 그렇게도 하지 않을 것”이라고 강조했다. 테스트셋은 성능 평가를 위해 사용하는 데이터셋으로 의혹이 사실이라면 시험지를 미리 보고 문제를 푸는 셈이다.