엣지 코어
설계 중목표 1.5 – 2 B 파라미터
온디바이스 추론. 노트북과 휴대폰 예산.
- 사양
-
- INT8 가중치, 민감도 높은 레이어에는 FP16 활성화.
- Context window: 초기 8 K 토큰, 메모리 프로파일에 따라 확장.
- 프런티어 teacher 로부터 distill. 공개 베이스의 파인튜닝 분기가 아닙니다.
- 배포 타깃
- 노트북의 WebGPU, 휴대폰급 실리콘의 Apple Neural Engine, 일반 ARM은 llama.cpp 경유.
- eval 계획
- 추론, 지시 수행, 알려진 refusal 패턴을 포함하는 동결된 suite. FP32 teacher 기준 geomean 으로 보고하고, task 별 수치는 model card 에 기재합니다.