압축이 곧 인지입니다.

들여다볼 수 있을 만큼 작고, 출시할 수 있을 만큼 날카로운 cognitive core. 백과사전은 버리고, 사고만 남깁니다.

단위는 step 입니다.

발전은 불연속입니다. 도약이 일어난 뒤를 위해 만듭니다.


    Q4 2024
    ████████████████████████
    100B params · frontier
  
    Q2 2025
    ███████████·············
     10B params · workstation
  
    Q4 2025
    ████····················
      1B params · cognitive core  ← where the work is now
  
    Q2 2026
    ██······················
    0.3B params · next step
  
    
프런티어 사이즈는 매끄럽게가 아니라 step 으로 줄어왔습니다 ← 우리가 쌓고 있는 곳

네 개의 기둥.

압축은 단일 기법이 아닙니다. 순서가 있는 네 가지입니다.

01

Pruning

모델이 한 번도 사고에 쓰지 않은 부분은 제거합니다.

  • 헤드와 채널 단위의 구조적 희소화.
  • 공개 데이터가 아닌 워크로드로 보정.
  • 모든 절단은 기록되며 되돌릴 수 있습니다.
02

Quantization

비트는 낮추되, 기하 구조는 보존합니다.

  • 민감도에 따른 레이어별 혼합 정밀도.
  • 중요한 곳은 부동소수, 그 외는 정수.
  • 범용 실리콘의 캐시 라인을 존중하는 커널.
03

Distillation

spike만 가르치고, 백과사전은 버립니다.

  • logit이 아닌 rollout 단위로 행동을 일치.
  • 태스크 그래프에서 커리큘럼 도출.
  • 더 작은 학생, 더 날카로운 결정, 동일한 판단.
04

Verifiability harness

step이 실재한다면, 차갑게 증명할 수 있어야 합니다.

  • 모든 커밋에 동결된 eval.
  • 릴리스마다 drift, regression, refusal 추적.
  • 리포트는 단일 해시로 재현됩니다.

spike는 전부, 백과사전은 없음.

Capability = Compression × Calibration × Conviction .

Capability
what the model can decide cold
Compression
how small the decision-making fits
Calibration
how the cuts match real traffic
Conviction
how the eval is signed

Capability = Compression × Calibration × Conviction.

↑↓ 이동 · enter 열기 · esc 닫기