로드맵

Cognitive core

온디바이스와 단일 GPU 배포를 위한 압축 인지 코어. 가중치 공개, 서명된 eval, 예측 가능한 풋프린트를 지향합니다.

설계 단계입니다. 세 사이즈를 계획 중이며, 첫 eval 이 차갑게 서명되기 전까지 라인업을 발표하지 않습니다.

계획된 라인

01

엣지 코어

설계 중

목표 1.5 – 2 B 파라미터

온디바이스 추론. 노트북과 휴대폰 예산.

사양
  • INT8 가중치, 민감도 높은 레이어에는 FP16 활성화.
  • Context window: 초기 8 K 토큰, 메모리 프로파일에 따라 확장.
  • 프런티어 teacher 로부터 distill. 공개 베이스의 파인튜닝 분기가 아닙니다.
배포 타깃
노트북의 WebGPU, 휴대폰급 실리콘의 Apple Neural Engine, 일반 ARM은 llama.cpp 경유.
eval 계획
추론, 지시 수행, 알려진 refusal 패턴을 포함하는 동결된 suite. FP32 teacher 기준 geomean 으로 보고하고, task 별 수치는 model card 에 기재합니다.
02

워크스테이션 코어

설계 중

목표 ~3 B 파라미터

단일 GPU 운영 트래픽.

사양
  • 혼합 정밀도: INT8 가중치, attention 레이어 활성화는 FP16.
  • Context window: 32 K 토큰. 그 이상은 sliding-window attention.
  • 공개 데이터가 아닌 배포 워크로드로 보정.
배포 타깃
소비자급 단일 GPU (RTX 4070 이상), 운영 환경에서는 A10G / L4 한 장.
eval 계획
엣지 코어와 동일한 동결 suite 에 배포 도메인 기반의 워크로드 eval 추가. 레이어별 민감도는 model card 와 함께 공개.
03

서버 코어

계획

목표 ~7 B 파라미터

프런티어 teacher 로부터 distill, 긴 context.

사양
  • INT8 가중치, FP16 활성화. INT4 가중치는 컴파일 플래그 옵션.
  • Context window: 128 K 토큰, 기본 retrieval-augmented.
  • Task graph 에서 도출한 커리큘럼으로 frontier teacher 로부터 distill 합니다.
배포 타깃
단일 A100, H100, 또는 동급. 표준 추론 프레임워크로 멀티 레플리카 스케일아웃.
eval 계획
표준 suite 에 long-context retrieval eval (NIAH 등) 추가. 릴리스마다 재현 해시와 seed 공개.

제품 이전에 원칙

  • 가중치 공개, Apache-2.0.
  • 모든 릴리스는 동결된 eval 과 릴리스 해시를 동봉합니다.
  • 재현 가능한 측정 없는 주장은 하지 않습니다.
  • 연출된 데모, 연출된 숫자는 없습니다.

출하 시 알림

코어당 한 번만 메일. 뉴스레터 아닙니다.

[email protected]

↑↓ 이동 · enter 열기 · esc 닫기