마이크로소프트 연구원들은 CPU에서 실행할 수 있는 초고효율 인공지능 모델을 개발했다고 주장합니다.

마이크로소프트의 연구원들은 지금까지 개발된 최대 규모의 1비트 인공지능 모델, 일명 '비트넷'을 개발했다고 주장합니다. BitNet b1.58 2B4T라고 불리는 이 모델은 MIT 라이선스로 공개되어 있으며, Apple의 M2를 포함한 CPU에서 작동할 수 있습니다.

비트넷은 가벼운 하드웨어에서 작동하도록 설계된 압축된 모델입니다. 일반 모델에서는 모델의 내부 구조를 정의하는 값인 가중치가 종종 양자화되어 여러 기기에서 잘 작동하도록 설계됩니다. 가중치를 양자화하면 가중치를 나타내기 위해 필요한 비트 수가 줄어들어 메모리가 적은 칩에서 모델을 더 빨리 실행할 수 있습니다.

비트넷은 가중치를 -1, 0, 1로만 양자화합니다. 이론적으로 이는 현재 대부분의 모델보다 훨씬 메모리와 컴퓨팅 효율성이 더 높아집니다.

마이크로소프트 연구원들은 BitNet b1.58 2B4T가 20억 개의 매개변수를 가진 첫 번째 비트넷이라고 주장합니다. '매개변수'는 대부분 '가중치'와 거의 동의어입니다. 4조 개의 토큰 데이터 세트에서 학습된 이 모델은 약 3300만 권의 책에 해당하는 성능을 발휘한다고 연구원들은 말합니다.

명확하게 말하면 BitNet b1.58 2B4T는 경쟁하는 20억 개의 매개변수 모델보다 뒤쳐지지는 않지만 비교적 자신감이 있습니다. 연구에 따르면 이 모델은 GSM8K(학년 수준의 수학 문제 모음)와 PIQA(물리적 상식 추론 능력을 테스트하는)를 포함한 벤치마크에서 Meta의 Llama 3.2 1B, Google의 Gemma 3 1B, Alibaba의 Qwen 2.5 1.5B를 능가합니다.

더 인상적인 것은 BitNet b1.58 2B4T가 다른 동일 규모의 모델보다 빠르며 메모리의 일부만을 사용한다는 점입니다.

그러나 이에는 단점이 있습니다.

그러한 성능을 달성하려면 현재 특정 하드웨어에서만 작동하는 마이크로소프트의 사용자 정의 프레임워크 bitnet.cpp를 사용해야 합니다. AI 인프라 시장을 주도하는 GPU는 지원 목록에 포함되어 있지 않습니다.

이 모든 것은 비트넷이 자원이 제한된 장치에 대해 약속을 지닐 수 있지만, 호환성이 큰 이슈가 될 것으로 예상된다는 것을 의미합니다.