Pruning
모델이 한 번도 사고에 쓰지 않은 부분은 제거합니다.
- 헤드와 채널 단위의 구조적 희소화.
- 공개 데이터가 아닌 워크로드로 보정.
- 모든 절단은 기록되며 되돌릴 수 있습니다.
발전은 불연속입니다. 도약이 일어난 뒤를 위해 만듭니다.
Q4 2024 Q2 2025 Q4 2025 Q2 2026
압축은 단일 기법이 아닙니다. 순서가 있는 네 가지입니다.
모델이 한 번도 사고에 쓰지 않은 부분은 제거합니다.
비트는 낮추되, 기하 구조는 보존합니다.
spike만 가르치고, 백과사전은 버립니다.
step이 실재한다면, 차갑게 증명할 수 있어야 합니다.
spike는 전부, 백과사전은 없음.
Capability = Compression × Calibration × Conviction .
Capability = Compression × Calibration × Conviction.