서비스
Pipeline
연산은 외주, 이해는 보유.
고객 모델을 가져와 압축하는 서비스를 설계 중입니다. 원칙은 단순합니다 — 가중치, eval, 추론 근거는 고객이 보유하고, 같은 방식으로 결정하는 더 작은 모델을 돌려드립니다.
현재 대화를 받고 있습니다. 세 팀과 처음부터 끝까지 한 번 돌려본 뒤 고정 범위 오퍼링을 발표할 예정입니다.
진행 방식
세 단계. 캘린더 기준 약 2주, 대부분이 연산 시간입니다. 모든 단계에서 모든 것을 고객이 보유합니다.
- 01
Intake
FP32 체크포인트와 실제 중요한 워크로드를 보내주십시오. 아키텍처를 읽고, 레이어별 민감도를 프로파일링하고, 압축 스케줄을 제안합니다. NDA 가 먼저, 가중치는 그 다음입니다.
- 02
Compression
Pruning, quantization, 선택적 distillation 을 고객의 eval 에 대해 실행합니다. 모든 절단은 기록되고, 모든 복원 경로는 보존됩니다. 원본은 삭제하지 않습니다.
- 03
Handoff
양자화된 체크포인트, 서명된 eval suite, model card, 사용한 calibration set 을 전달합니다. 모든 것이 단일 릴리스 해시로 재현 가능합니다. 떠나신다면, 모든 것을 가지고 떠나시는 겁니다.
전달물
- 양자화된 가중치 (INT8 또는 레이어별 혼합 정밀도).
- 실행에 사용한 동결 eval suite 와 seed.
- 레이어별 민감도와 FP32 베이스라인 대비 정확도 델타를 담은 model card.
- 지정하신 타깃 하드웨어 기준의 배포 가이드.
- 위 전부를 보내주신 소스에서 재현하는 릴리스 해시.
연락
운영에 모델을 올리고 있고 추론 비용이 문제가 되고 있다면, 연락주십시오. 모델과 타깃 하드웨어부터 알려주시면 됩니다.
[email protected]