
중국 기업은 오픈AI와 기타 미국 기반 AI 기업이 개발한 시스템과 견줄 만한 AI 모델을 지속적으로 출시하고 있습니다.
이번 주에는 벤처 투자를 통해 약 85억 달러, 시가 25억 달러가 넘는 자본을 모았으며 알리바바와 텐센트가 후원하는 스타트업 MiniMax가 세 가지 새로운 모델을 선보였습니다: MiniMax-Text-01, MiniMax-VL-01, T2A-01-HD. MiniMax-Text-01은 텍스트 전용 모델이며, MiniMax-VL-01은 이미지와 텍스트를 모두 이해할 수 있습니다. 한편 T2A-01-HD는 오디오를 생성합니다 - 구체적으로 음성입니다.
MiniMax는 4560억 파라미터 크기인 MiniMax-Text-01이 MATH 및 SimpleQA와 같은 벤치마크에서 Google의 최근 공개한 Gemini 2.0 Flash와 같은 모델보다 뛰어난 성능을 보인다고 주장합니다. 파라미터는 모델의 문제 해결 능력에 대응하며, 보다 많은 파라미터를 가진 모델이 일반적으로 더 나은 성능을 발휘합니다.
MiniMax-VL-01에 대해서는 MiniMax가 ChartQA와 같이 그래프 및 다이어그램 관련 쿼리(예: "이 그래프의 주요 값은 무엇입니까?")에 답변할 수 있는 다중 모달 이해를 필요로 하는 평가에서 Anthropic의 Claude 3.5 Sonnet을 견줄 정도라고 주장합니다. MiniMax-VL-01는 이러한 테스트 중에서 Gemini 2.0 Flash를 완전히 이길 수는 없습니다. 또한 OpenAI의 GPT-4o와 Meta의 Llama 3.1도 여러 가지 면에서 뛰어납니다.
특히 MiniMax-Text-01은 매우 큰 컨텍스트 윈도우를 가지고 있습니다. 모델의 컨텍스트 또는 컨텍스트 윈도우는 모델이 출력(추가 텍스트)을 생성하기 전에 고려하는 입력(예: 텍스트)을 나타냅니다. 4백만 토큰의 컨텍스트 윈도우를 가진 MiniMax-Text-01은 한 번에 약 300만 개 단어를 분석할 수 있습니다 - 또는 "전쟁과 평화"의 다섯 부 복사본을 조금 넘게 분석할 수 있습니다.
이 기록(MiniMax-Text-01의 컨텍스트 윈도우)은 GPT-4o와 Llama 3.1의 약 31배입니다.
이번 주에 출시된 MiniMax의 마지막 모델인 T2A-01-HD는 음성에 최적화된 오디오 생성기입니다. T2A-01-HD는 영어와 중국어를 포함한 약 17개의 다양한 언어로 조절 가능한 박자, 음조 및 음색으로 합성 음성을 생성하고, 오디오 녹음의 10초 만으로 음성을 클론할 수 있습니다.
MiniMax는 T2A-01-HD를 다른 오디오 생성 모델과 비교하는 벤치마크 결과를 발표하지 않았습니다. 그러나 이 기자의 귀에는 T2A-01-HD의 출력이 Meta 및 PlayAI와 같은 스타트업의 오디오 모델과 비슷하게 들립니다.
MiniMax의 새로운 모델 중 T2A-01-HD를 제외한 모델은 GitHub 및 AI 개발 플랫폼 Hugging Face에서 다운로드할 수 있습니다.
모델이 '공개적으로' 제공된다고 해서 특정 측면에서 제한되지 않았다는 뜻은 아닙니다. MiniMax-Text-01 및 MiniMax-VL-01은 MiniMax가 처음부터 재현하기 위해 필요한 구성 요소(예: 훈련 데이터)를 공개하지 않았습니다. 또한 라이선스 제한 사항에 따라 MiniMax의 제한적 라이선스에 따라 모델을 사용하여 경쟁 모델을 개선하거나 월간 활성 사용자가 1억 명을 넘는 플랫폼은 MiniMax로부터 특별 라이선스를 요청해야 합니다.
MiniMax는 중국 최대의 AI 기업 중 하나인 SenseTime의 전 직원들에 의해 2021년에 설립되었습니다. 회사의 프로젝트에는 Character AI와 유사한 AI 기반 롤 플레잉 플랫폼인 Talkie와 MiniMax가 Hailuo에서 출시한 텍스트에서 비디오 모델 등이 있습니다.
MiniMax의 일부 제품이 소소한 논란의 대상이 되었습니다.
12월에 애플 앱 스토어에서 기술적인 이유로 철회된 Talkie는 도널드 트럼프, 테일러 스위프트, 일론 머스크, 레브론 제임스 등 공인 인물들의 AI 아바타를 특징으로 합니다. 그러나 이들 중 아무도 해당 앱에 표시된 것에 동의한 것으로 보이지는 않습니다.
12월에 방송 잡지는 MiniMax의 비디오 생성기가 영국 텔레비전 채널의 로고를 복제할 수 있음을 보도했습니다. 그리고 MiniMax는 자신의 모델이 해당 채널의 콘텐츠에서 훈련 받았다는 것을 시사합니다. 또한 MiniMax는 저작권 보호된 기록들을 불법적으로 훈련했다고 주장하는 중국 비디오 스트리밍 서비스인 iQiyi로부터 소송을 당하고 있다고 전해졌습니다.
미국 바이든 행정부는 중국 기업을 위한 강화된 수출 규제와 AI 기술에 대한 제한을 제안한 지 몇 일 후에 MiniMax의 새로운 모델이 출시되었습니다. 중국 기업은 이미 고급 AI 칩을 구매할 수 없었지만, 새로운 규정이 현행대로 적용된다면 기업은 세분화된 AI 시스템 구축을 위해 필요한 반도체 기술 및 모델에 대해 보다 엄격한 상한선을 마주하게 될 것입니다.
수요일에 바이든 행정부는 중국으로의 고급 칩 유출을 막기 위한 추가 조치를 발표했습니다. 특정 칩을 내보내려는 칩 제조업체와 패키징 업체는 중국 고객에게 그들의 제품이 도달하지 않도록 더 많은 검토와 신중한 주의를 기울이지 않을 경우 보다 넓은 라이센스 요건에 따라야 합니다.