#AI #DNN #Model Inference #MLOps
메시지 광고 추천 시스템은 일별 500개 이상의 모델을 실시간으로 서빙합니다. 이번 발표에서는 LLM 모델 서빙 속도를 높이기 위해 JVM 기반 인퍼런스 서버를 Nvidia Triton으로 교체한 경험을 공유합니다.
발표자 : hendo.park, jaylene.shin
hendo.park - 광고추천개발의 헨도입니다. 모델 인퍼런스 & 서빙에 관심이 많습니다.
jaylene.shin - 광고추천개발의 제이린입니다. 실시간 모델 인퍼런스와 서빙 작업을 담당하고 있습니다.