하이브리드 AI '추론' 모델을 통한 Deep Cogito의 출시

새로운 회사인 Deep Cogito는 '추론' 및 비-추론 모드 간에 전환할 수있는 AI 모델의 패밀리를 공개로 제공하며 은폐에서 나왔습니다.

예, OpenAI의 o1과 같은 추론 모델은 복잡한 문제를 단계별로 작업함으로써 효과적으로 사실을 점검할 수있는 능력 덕분에 수학 및 물리와 같은 도메인에서 큰 성공을 거두었습니다. 그러나 이러한 추론은 높은 컴퓨팅 및 대기 시간과 함께 제공됩니다. 그래서 Anthropic과 같은 연구소는 추론 구성 요소를 표준 비-추론 요소와 결합하는 '하이브리드' 모델 구조를 추구하고 있습니다. 하이브리드 모델은 간단한 질문에 빠르게 답변하면서 더 어려운 쿼리를 고려하기 위해 추가 시간을 소비할 수 있습니다.

Deep Cogito의 모든 모델인 Cogito 1은 하이브리드 모델입니다. Cogito는 크기가 동일한 최고의 개방 모델을 능가한다고 주장합니다. Meta 및 중국의 AI 스타트업 DeepSeek의 모델.

회사는 블로그 포스트에서 설명 한대로 "각 모델은 직접 ... 또는 답변하기 전에 자체 리플렉션 (추론 모델과 같이)"하여 대략 75 일 동안 작은 팀에 의해 개발되었습니다.

Cogito 1 모델은 30 억 개의 매개 변수에서 700 억 개의 매개 변수로 이어지며, Cogito는 이와 함께 6710 억 개의 매개 변수에 이르는 모델이 다가올 주교에서 함께 합류할 것이라고 합니다. 매개 변수는 일반적으로 모델의 문제 해결 능력에 상응하며, 더 많은 매개 변수가 일반적으로 더 나은 결과를 가져옵니다.

확실하게 말하자면, Cogito 1은 처음부터 개발되지 않았습니다. Deep Cogito는 Meta의 개방형 Llama 및 Alibaba의 Qwen 모델을 기반으로 자체 모델을 만들었습니다. 회사는 기본 모델의 성능을 향상시키고 전환 가능한 추론을 가능하게하는 혁신적인 교육 접근 방식을 적용했다고 말합니다.

Cogito의 내부 벤치 마킹 결과에 따르면, 추론과 결합된 가장 큰 Cogito 1 모델 인 Cogito 70B는 수학 및 언어 평가에서 DeepSeek의 R1 추론 모델을 능가합니다. Cogito 70B의 추론이 비활성화되면 Meta의 최근에 출시 된 Llama 4 스카우트 모델을 일반 목적 AI 테스트인 LiveBench에서 능가합니다.

모든 Cogito 1 모델은 Fireworks AI와 Together AI의 클라우드 공급 업체를 통해 다운로드하거나 사용할 수 있습니다.

Cogito 1의 성능이 인기있는 공개 AI 모델과 비교 이미지 크레딧 : Deep Cogito

“현재 우리는 전통적인 대형 언어 모델 후 / 계속되는 교육에 일반적으로 예약 된 컴퓨팅의 일부만 사용하고 있어 [우리] 확장 곡선의 초기 단계에 아직 있습니다,”라고 Cogito는 자신의 블로그 포스트에서 썼습니다. “앞으로는 자체 개선을위한 보조 후 훈련 접근 방식을 조사 중입니다.”

샌프란시스코에 소재한 Deep Cogito는 PitchBook에 따르면 South Park Commons를 후원자로 한 설립이된지 2024 년 6 월 이후입니다. 회사의 LinkedIn 페이지에는 Drishan Arora와 Dhruv Malhotra라는 공동 창업자가 두 명 나열되어 있습니다. Malhotra는 이전에 Google AI 랩 DeepMind에서 제네레이티브 검색 기술에 종사한 제품 관리자였습니다. Arora는 Google의 시니어 소프트웨어 엔지니어였습니다.

덥코기토는 PitchBook에 따르면 South Park Commons를 후원자로 구성하고 있으며 "일반적인 초지능"을 구축하는 것을 야심차게 목표로 삼고 있습니다. 회사의 창립자들은 그 문구를 대부분의 사람들보다 더 잘 수행 할 수있는 AI와 "우리가 아직 상상하지 못한 완전히 새로운 능력을 발견할 수있는 AI"로 이해합니다.