Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM 서빙 토크: 싸게‧빠르고‧정확하게 돌리는 LLM 꿀팁

Avatar for Lablup Inc. Lablup Inc. PRO
November 02, 2025
1

LLM 서빙 토크: 싸게‧빠르고‧정확하게 돌리는 LLM 꿀팁

Track 3_1430_Lablup Conf 2025_박배성

Avatar for Lablup Inc.

Lablup Inc. PRO

November 02, 2025
Tweet

Transcript

  1. GPT란 ⚫ GPT란 무엇인가 ⚫ 서비스를 나타내는 지표 ⚫ Latency에

    따른 LLM 토큰 단가 비교 가속기술 ⚫ Quantization ⚫ Speculative Decoding ⚫ Disaggregated Prefill (Splitwise) Agentic AI ⚫ Agentic AI workload pattern ⚫ Prefix caching ⚫ 계층적 KV 재사용 기법의 이론적 분석:DGX A100 기반 NAVER
  2. GPT(Generative Pretrained Transformer)란 무엇인가 • LLM(Large Language Model) 중 가장

    대표적인 모델 • 생성 모델이 생성하는 것은 문장이 아닌 토큰, 한번의 연산으로 한 토큰 씩 생성 • 생성하는 토큰이 단어면 문장, 픽셀이면 이미지, 음성 파형이면 음성 등 다양한 생성이 가능. NAVER
  3. GPT(Generative Pretrained Transformer)란 무엇인가 • 입력처리(Prefill)는 Computation bound (Intensity 가

    높다). -> 더 많은 코어가 있는 하드웨어 • 출력처리(Decode)는 Memory bound (Intensity 가 낮다) -> 더 높은 메모리 대역폭을 가진 하드웨어 • 결국 연산능력, 메모리능력 둘 다 높은 하드웨어를 써야한다. NAVER
  4. TTFT(Time To First Token) 사용자가 입력문장 작성 한 후 CLOVA가

    처음으로 응답하는 시간 TPOT( Time Per Output Token) CLOVA가 처음 토큰(단어)을 응답 한 후 출력 문장을 작성할 때 각각의 토큰이 나오는 시간 TBT(Time Between Token) ITL(Inter token latency) NAVER
  5. 10ms 1M token 당 가격 Latency / 1-token 20ms 30ms

    측정기준: Llama3 70B Model BF16/H100 기준 추산 latency 및 가격 입출력 1K/1K 2$ 0.5$ 0.50$ 2$ 타사 판매가 0.71$ 0.50$ 0.46$ Latency에 따른 LLM 토큰 단가 비교 NAVER
  6. 10ms 1M token 당 가격 Latency / 1-token 20ms 30ms

    측정기준: Llama3 70B Model BF16/H100 기준 추산 latency 및 가격 입출력 1K/1K 2$ 0.5$ 0.50$ 2$ 타사 판매가 0.71$ 0.50$ 0.46$ 오픈소스 생산가 N/A Latency에 따른 LLM 토큰 단가 비교 NAVER
  7. Latency에 따른 LLM 토큰 단가 비교 10ms 1M token 당

    가격 Latency / 1-token 20ms 30ms 측정기준: Llama3 70B Model BF16/H100 기준 추산 latency 및 가격 입출력 1K/1K 2$ 0.5$ 0.50$ 2$ 타사 판매가 0.71$ 0.50$ 0.46$ 오픈소스 생산가 N/A 네이버 생산가 NAVER
  8. Quantization 기술의 범위 10ms 1M token 당 가격 Latency /

    1-token 20ms 30ms 측정기준: Llama3 70B Model BF16/H100 기준 추산 latency 및 가격 입출력 1K/1K 2$ 0.5$ 0.50$ 2$ 타사 판매가 0.71$ 0.50$ 0.46$ 오픈소스 생산가 N/A 네이버 생산가 NAVER
  9. Quantization 아날로그 신호나 데이터를 디지털로 변환 즉 연속적인 값을 이산적인(즉,

    유한한) 값으로 변환하는 과정 특히 딥러닝 모델을 경량화 하거나 성능을 최적화할 때 많이 사용 모델의 파라미터를 낮은 정밀도로 변환하여 메모리 사용량을 줄이고 계산 효율을 높힘 Ex) 16-bit float. => 4-bit INT. Quantization with LLM Compressor NAVER
  10. Speculative Decoding 기술의 범위 10ms 1M token 당 가격 Latency

    / 1-token 20ms 30ms 측정기준: Llama3 70B Model BF16/H100 기준 추산 latency 및 가격 입출력 1K/1K 2$ 0.5$ 0.50$ 2$ 타사 판매가 0.71$ 0.50$ 0.46$ 오픈소스 생산가 N/A 네이버 생산가 NAVER
  11. 1 step GPU utilization 토큰 생성 시간(latency)을 낮출 수 있는

    방법 빠른 보조 모델이 여러 토큰을 예측, 원 모델이 이 결과를 한 번에 검사함. 작은 모델도 원 모델과 유사한 예측을 할 수 있다는 점을 활용 Speculative Decoding - 정의 NAVER
  12. 20ms * 4steps = 80ms 5ms * 4steps + 25ms

    * 1step = 45ms 원 모델의 출력 확률 분포와 일치하는 결과를 유지할 수 있고, 품질 하락에 대한 문제 없음. 대표적인 보조 모델로는 원 모델과 유사한 학습 과정을 거친 작은 모델을 활용함. e.g.) Llama 3 70B / 8B 조합 기존 방식 Speculative Decoding Speculative Decoding - 기존 방식과 비교 NAVER
  13. Disaggregated Prefill 기술의 범위 10ms 1M token 당 가격 Latency

    / 1-token 20ms 30ms 측정기준: Llama3 70B Model BF16/H100 기준 추산 latency 및 가격 입출력 1K/1K 2$ 0.5$ 0.50$ 2$ 타사 판매가 0.71$ 0.50$ 0.46$ 오픈소스 생산가 N/A 네이버 생산가 NAVER
  14. Continuous Batching은 Prefill 하는 동안 Decode를 수행할 수 없어, request

    분포에 따라서 손해가 발생함 Disaggregated Prefill (Splitwise) NAVER
  15. Continuous Batching은 Prefill 하는 동안 Decode를 수행할 수 없어, request

    분포에 따라서 손해가 발생함 Disaggregated Prefill (Splitwise) NAVER
  16. Inference 에서 Agentic AI가 가지는 의미 - long sequence 입력/출력의

    증가 - Multi-turn 사용자 증가 - 다양한 도메인 모델 이용 Agentic AI Workload Pattern NAVER
  17. - 이전에 연산했던 데이터를 caching함. - 동일한 입력이 들어올 시

    재연산하지 않고 KV load하여 연산시간을 줄임. - 연산을 생략하는 만큼 Prefill 비용감소 (~30%) 오늘 날씨 흐림 Time (2) 채팅 사용자 언제까지? 5시 오늘 날씨 흐림 언제까지? 5시 오늘 날씨 흐림 우산? yes 연산 생략 (KV Load) 사용자 입력 (Prefill) GPT 출력 (Decode) GPT는 욕을 하지 않는다. 오늘 날씨 알려줘. 흐림 GPT는 욕을 하지 않는다. Time (1) 중복 사용되는 시스템 프롬프트 사용자 입력 (Prefill) GPT 출력 (Decode) 음식점 추천해줘. 고깃집 연산 생략 (KV Load) Prefix Caching NAVER