Upgrade to Pro — share decks privately, control downloads, hide ads and more …

JupyterFlow : 당신의 모델에 날개를 달아드립니다(유홍근)

JupyterFlow : 당신의 모델에 날개를 달아드립니다(유홍근)

MLOps KR(https://www.facebook.com/groups/mlopskr)에서 주최한 1회 온라인 이벤트 발표 자료입니다

MLOpsKR

June 05, 2021
Tweet

More Decks by MLOpsKR

Other Decks in Programming

Transcript

  1. 대상 청중 • 쿠버네티스를 잘 몰라도 그 기능을 활용해 보고

    싶은 데이터과 학자 • 효율적인 ML 환경과 workflow를 고민하는 MLOps Engineer • 좋은 ML툴을 찾고자 하는 모델러 약간의 쿠버네티스 지식이 필요합니다.
  2. 오늘 발표는 Model Development (학습) 의 내용을 다룹니다. 발표 범위

    Model Development 학습 Model Serving 예측 데이터 처리, 모델 개발, 학습 모델 배포, 서빙, 모델평가, 운영
  3. 발표하기에 앞서 • 오늘 발표하는 내용은 제가 속한 회사와는 아무런

    연관성이 없습니다. (사내 데이터 플랫폼에 적용 시켜 보는 것이 개인적인 목표임) • 모두 제 개인적인 의견(프로젝트)임을 밝힙니다.
  4. 기계학습을 제대로 하기 위해 • 지속적 모델 개발 / 배포

    • 컴퓨팅 자원 스케줄링 • 다양한 모델 실험 • ML 파이프라인 관리 • 성능 지표 관리 & 모니터링
  5. 근본적인 문제 y = Ax + Bx! + C 2

    필연적으로 많은 기계가 필요 4
  6. 모니터링이 쉬워집니다. CPU MEM CPU MEM CPU MEM CPU MEM

    CPU MEM CPU MEM CPU MEM CPU MEM CPU MEM stats 어떤 서버에 어떤 문제가 있는지
  7. 3줄 요약 • 많은 컴퓨팅 자원이 필요! • 너무 많아

    어떻게 다 관리해ㅜ • 쿠버네티스가 해결해줄께! MLOps 만세! 끄읕~
  8. But, No Free Lunch 쿠버네티스가 모두에게 익숙한 것은 아니다 •

    컨테이너화 작업 (Containerization) • Manifest 파일(YAML) 작성
  9. Containerization # Image build docker build . -t <IMAGE_NAME> #

    Image push docker push <IMAGE_NAME> # Run container docker run <IMAGE_NAME> 넘 귀찮음ㅜ 모델 스크립트 한줄 수정할 때마다 재빌드...
  10. YAML 지옥 (Writing Manifest) apiVersion: batch/v1 kind: Job metadata: name:

    ml-job spec: template: spec: containers: - name: ml image: python:3.7 command: ["python", "train.py"] restartPolicy: Never backoffLimit: 4 ? ? 이렇게 실행하시면 됩니다~
  11. 아직 문제가 남아 있습니다 컨테이너 안에서 개발한 코드를 쿠버네티스에 어떻게

    전 달 하나? train.py 얘는 컨테이너 얘는 이미지로부터 컨테이너 실행
  12. 아직 문제가 남아 있습니다 1. CI/CD 이용? (git push ->

    docker build & push) 2. 컨테이너로부터 이미지 생성? (docker commit) 3. 혹시 다른 방법?
  13. 우리가 정말 필요한 것? ML학습에 필요한 3가지 요소 • 모델

    실행환경: 실행환경(venv, conda) • 모델 소스코드: train.py • 모델 파라미터: epoch=10 dropout=0.5 어떤 방법을 이용해서든지 이 3가지 정보만 있으면 OK # run ml training venv/bin/python train.py epoch=10 dropout=0.5
  14. ML학습에 필요한 요소 K8s Manifest에서도 동일 apiVersion: batch/v1 kind: Job

    metadata: name: my-ml-job spec: template: spec: containers: - name: ml image: python:3.7 command: [python, train.py] args: - epoch=10 - dropout=0.5 restartPolicy: Never backoffLimit: 4 • 어떤 실행환경 (image) • 어떤 ML code (script) • 어떤 파라미터 (param)
  15. 재밌게도 • JupyterHub를 이용하면 손쉽게 획득 가능 • 왜? Jupyter도

    컨테이너(Pod)로 만들어졌기 때문에! • Pod 정보 • 이미지 주소 (실행환경) • 볼륨 정보 (ML code) • args 정보 (파라미터) # in jupyter notebook Pod POD_INFO=$(kubectl get pod $(hostname) -oyaml)
  16. 그렇다면 만약에.. JupyterHub를 통해 이 3가지 정보를 얻어서 컨테이너화 작업

    없이 K8s Manifest를 자동으로 만들어주는 어떤 툴이 있다면, 정말 편리하지 않을까요? (No containerization) (YAML 지옥 해방)
  17. JupyterFlow란? 컨테이너화 작업 & Manifest 작성 없이 곧바로 학습할 수

    있도록 도와주는 CLI툴! # install pip install jupyterflow # run ml workflow jupyterflow run -c "python train"
  18. JupyterFlow와 함께라면 • 작성한 코드를 바로 클러스터로 실행 가능! •

    쿠버네티스 전혀 몰라도 괜찮아요~ • 이제 ML에만 집중하고 귀찮은 작업은 JupyterFlow에게!
  19. JupyterFlow 전과 후 JupyterFlow가 없다면 • 모델 스크립트 작성 •

    Dockerfile 작성 • 도커 빌드 & 푸시 • K8s Manifest 작성 • kubectl apply
  20. JupyterFlow 전과 후 JupyterFlow가 없다면 • 모델 스크립트 작성 •

    Dockerfile 작성 • 도커 빌드 & 푸시 • K8s Manifest 작성 • kubectl apply JupyterFlow와 함께라면 • Jupyter 노트북 생성 • 모델 스크립트 작성 • jupyterflow run!
  21. 어떤 원리야? Argo Workflow - Custom Resource apiVersion: argoproj.io/v1alpha1 kind:

    Workflow metadata: generateName: ml- spec: entrypoint: entry templates: - name: entry container: image: python:3.7 command: ["python"] args: ["train.py", "epoch=5"] volumeMounts: - name: A mounts: "/home/jovyan" volumes: - name: A persistentVolumeClaim: - name: mypvc
  22. 개인적인 견해의 ML툴 비교 • 먼저 짚고 넘어가야 할 사항!

    • 주관적인 관점에서의 비교 내용 • 장점을 어필하기 위해 부득이 기존의 오픈소스들과 비교
  23. ML툴 비교 Product Containerization Manifest 난이도* 지속적 모델 배포 JupyterFlow

    No need 하 (workflow.yaml) 즉각 Argo Workflow Required 상 (Kubernetes Manifest) 이미지 배포 Airflow No need 중 (Airflow DAG) 깃 배포, ansible 배포, 이미지 배포 Kubeflow Required 상 (Kubeflow Pipelines SDK) 이미지 배포 • 난이도*: 주관적인 기준입니다.
  24. JupyterFlow 개선점 • Distributed training 기능 부재 • 설치가 조금

    복잡 • 고급 Admission Control 기능 부재 (사용자별 Workflow 조회, 삭제)
  25. 근데 그거... 혹시 Argo Workflow Manifest만 잘 만들면 되지 않나요?

    Airflow on Kubernetes랑 거의 비슷한거 같은데..? Kubeflow 쓰지 왜 이걸 써야 하나요?
  26. 네, 다 맞는 말입니다. • 사실 기존 wf 엔진을 사용해도

    100% 대체 가능 Argo, Airflow, Kubeflow, Lugi, NiFi, Oozie • 그럼 프로젝트 의미가 있을까? • Yes! Why?
  27. 칼 용도 & 크기의 문제인 것 같습니다. • 기능적으로는 다

    동일! 사소한 디테일의 차이 • 빅데이터 진영도 비슷한 현상 - Query engine, Storage engine, Streaming Processor, Resource Manager • 용도에 따라 - 안정성 - 속도 - 운영성 - 유지보수성
  28. JupyterFlow라는 칼의 용도는? 데이터과학자들이 For data scientist 모델 실험 시

    On model development 쿠버네티스 레벨로 At Kubernetes scale 빠르게 학습 With speed
  29. 발표 Wrap Up • MLOps 쿠버네티스로하면 좋아요! • 확장성 (scalability)

    • 스케줄링 • 리스소 관리 • 모니터링 & 장애 대응 • 하지만 모두가 쿠버네티스에 익숙한 건 아니에요 • containerization & YAML 지옥 • JupyterFlow를 사용하면 모두가 행복해져요!
  30. 마무리 • 개인적으로 시작한 오픈소스 프로젝트 • 아직 초기 단계,

    버그도 있고 완벽x • JupyterFlow가 가지는 굉장한 가능성 • 프로젝트에 관심이 있거나, 한번 검토 중이시라면 언제든지 연락 부탁드 립니다! • 직접 찾아가서 환경 세팅해드립니다!
  31. 발표의 자료가 된 글 https://coffeewhale.com • 커피고래가 생각하는 MLOps •

    [번역] 데이터 과학자들은 쿠버네티스에 관심이 없습니다 - MLOps • 데이터 과학자를 위한 ML툴 - JupyterFlow
  32. MLOps가 하는 일이 무엇인지, 어떤 역량을 갖춰야하는지 궁금합 니다. 한번의

    작업으로 끝이 아니라 여러 번 시도하며 개선해 나가는 과정 이 과정을 지원하는 모든 일들 • 모델링 과정 이해 • ML Framework 파악 • 모델링 & 분석 경험 • 클러스터 시스템 • CI / CD • 모니터링 • 자원 관리 커피고래가 생각하는 MLOps: https://coffeewhale.com/what-is-mlops
  33. MLflow & Ray는요? MLflow와 Ray는 Workflow Engine이 아니어서 비교에서 제외

    오히려 조합하여 시너지를 낼 수 있는 제품이라 생각 Ray distributed computing on JupyterFlow