
Inception은 스텔스에서 시작된 파로 알토 소재의 새로운 회사로, 스텐포드 컴퓨터 과학 교수인 스테파노 에르몬이 개발한 '확산' 기술을 기반으로 한 혁신적인 AI 모델이 개발되었다고 주장합니다. Inception은 "확산 기반 대형 언어 모델(DLM)"이라고도 부릅니다.
지금 가장 주목받는 생성형 AI 모델은 크게 두 가지 유형으로 나뉠 수 있습니다: 대형 언어 모델(LLM)과 확산 모델입니다. Transformer 아키텍처를 기반으로한 LLM은 텍스트 생성에 사용됩니다. 한편 Midjourney 및 OpenAI의 Sora와 같은 AI 시스템을 구동하는 확산 모델은 주로 이미지, 비디오 및 오디오 생성에 사용됩니다.
Inception의 모델은 전통적인 LLM의 기능을 제공하지만, 회사에 따르면 성능이 훨씬 빠르고 컴퓨팅 비용이 줄어듭니다. 에르몬은 기존 LLM이 확산 기술에 비해 상대적으로 느리다는 아이디어를 기반으로 그의 스탠포드 연구실에서 오랫동안 텍스트에 확산 모델을 적용하는 방법에 대해 연구해왔다고 TechCrunch에 전했습니다. LLM은 '첫 번째 단어를 생성하기 전에 두 번째 단어를 생성할 수 없고, 첫 번째 두 개의 단어를 생성한 뒤에 세 번째 단어를 생성할 수 없다'고 하였습니다.
에르몬은 LLM과 달리 순차적으로 작동하는 확산 모델에 텍스트 접근 방법을 찾고 있었습니다. LLM은 순차적으로 작업을 진행하는 반면, 확산 모델은 생성하는 데이터(예: 이미지)의 대략적인 추정값으로 시작한 뒤 한꺼번에 데이터를 초점으로 가져옵니다. 에르몬은 확산 모델을 사용하여 대규모 텍스트 블록을 병렬로 생성하고 수정할 수 있다고 가정했습니다. 몇 년간 시도한 끝에 에르몬과 그의 학생은 작년에 발표한 연구 논문에서 상당한 발전을 이룩했습니다.
이 발전의 잠재력을 인식한 에르몬은 지난 여름 Inception을 설립하였으며, UCLA 교수인 Aditya Grover와 코넬 대학교 교수인 Volodymyr Kuleshov를 회사의 공동 리더로서 영입했습니다. 에르몬은 Inception의 자금에 대해 언급을 거부했지만, TechCrunch가 Mayfield Fund가 투자했다는 것을 이해하고 있습니다.
Emron는 줄어든 AI 대기 시간과 증가한 속도의 긴점을 해결함으로서 선무한 포쳃 100 개사 등 몇몇 고객을 이미 확보하였다고 말했습니다. “우리 모델은 GPU를 훨씬 효율적으로 활용할 수 있다는 것을 발견했습니다,” 해석하며 이것은 매우 중요한 일이라고 주장했습니다. 이는 사람들이 언어 모델을 구축하는 방식을 바꿀 것이다.
Inception은 API뿐만 아니라 온프레미스 및 엣지 장치 배포 옵션, 모델 파인튜닝 지원 및 다양한 사용 사례를 위한 out-of-the-box DLM 스위트도 제공합니다. 회사는 그들의 DLM이 전통적인 LLM보다 최대 10배 빨리 실행되고 비용은 10배나 적게 든다고 주장합니다. "우리의 '작은' 코딩 모델은 [OpenAI의] GPT-4o mini만큼 좋은 성능을 발휘하면서 10배 이상 빠릅니다," 회사 대표는 TechCrunch에 말했습니다. "우리의 '미니' 모델은 [Meta의] Llama 3.1 8B 같은 작은 오픈 소스 모델보다 뛰어나며 초당 1,000개 이상의 토큰을 달성합니다."
'토큰'은 원시 데이터의 조각을 가리키는 업계 용어입니다. 초당 1,000개의 토큰은 Inception의 주장이 사실이라면 인상적인 속도일 것입니다.