Upgrade to Pro — share decks privately, control downloads, hide ads and more …

온디바이스 AI 및 로컬 AI의 도전 과제 / Challenges of On-Devi...

온디바이스 AI 및 로컬 AI의 도전 과제 / Challenges of On-Device AI and Local AI

이 세미나에서는

- 생성형 AI, 언어 모델 및 챗봇
- 거대 언어 모델, 적정 수준 언어 모델 및 역사
- 온디바이스 AI 와 로컬 AI 아젠다 및 도전 과제
- 업계, 학계, 정부의 접근

에 대해 다양한 이야기를 나눕니다.

이 발표는 2024년 5월 28일 오후 7시 모두의연구소 모두팝 초청 강연으로 진행되었습니다.
--
This seminar engages in a wide-ranging discussion on the following topics:

- Generative AI, language models, and chatbots
- Large language models, right-sized language models, and their history
- On-device AI and local AI agendas and challenges
- Approaches from industry, academia, and government

This presentation was delivered as an invited lecture at the ModuPop event organized by the ModuLabs on May 28, 2024, at 7:00 PM.

Avatar for Jeongkyu Shin

Jeongkyu Shin

May 28, 2024
Tweet

More Decks by Jeongkyu Shin

Other Decks in Technology

Transcript

  1. AI Enterprise AI Cloud AI Open Source AI MLOps 온디바이스

    AI 및 로컬 AI의 도전 과제 신정규 래블업 주식회사 모두의 연구소 모두팝 / 2024년 5월 28일
  2. • Lablup Inc. : Make AI Accessible – 오픈소스 머신러닝

    클러스터 플랫폼: Backend.AI 개발 – https://www.backend.ai • Google Developer Expert – ML / DL GDE – Google Cloud Champion Innovator – Google for Startup Accelerator Mentor • 오픈소스 – 텍스트큐브 개발자 / 모더레이터 (20년!) • 물리학 / 뇌과학 – 통계물리학 박사 (복잡계 시스템 및 계산뇌과학 분야) – (전) 한양대학교 ERICA 겸임교수 (소프트웨어학부) 안녕하세요! 2
  3. • 초거대 AI와 로컬 AI • 온 디바이스 AI •

    질문과 과제 • 생각들 오늘의 주제 3
  4. 5

  5. 6

  6. 7

  7. • 2023년 말, 2024년 초 • AI PC, AI Desktop

    • 2024 CES – Microsoft 의 Copilot Key 추가 – 21세기 들어 최초의 키보드 키 추가 발표 ✓ (90년대 초엔 윈도키나 메뉴키가 키보드에 없었음) • (여기서) 두 장 들고 와서 시작해봅시다 잠시 연초로 돌아가 보면 8
  8. • 멀티모달 모델의 대두 – AI (를 포함한 IT)의 발전

    방향 ✓ 기술이 성숙해서 ✓ 사용자가 비용을 지불하는 방향으로 향함 – 성숙 기술 ✓ Vision, Image GenAI, LLM ✓ LLM+Vision 멀티모달 영역의 발전 ✓ Reasoning 기반의 BI 도출 ✓ 코파일럿: 전문가 시스템의 사용 난도 감소 – 예 ✓ Microsoft Office Copilot / Google Duet AI ✓ Unity AI (Muse & Sentis), Unreal AI (Unreal Engine) ✓ Midjourney v6, SDXL-Turbo (2023. 12) 2024: 전망 (1) • AI generated by AI – Teacher – Student 모델 (Google, 2017)과 유사 – 1단계: AI가 생성한 데이터 기반으로 AI 훈련 ✓ ShareGPT (2023. 6) 등 ✓ 이미 다양한 사례가 보고됨 ✓ OpenAI의 ByteDance 계정 블럭 (2023. 12. 16) – 2단계: AI 기반의 AI모델 최적화 및 경량화 ✓ AI 자동 빌드 파이프라인 (AiZip, 2023. 12) • AI 디자인 자동화: AI 구조 설계 및 MLOps 전체에 AI 적용 ✓ AutoML / MLops on Vertex AI (Google, 2023) • Duet AI 적용을 통한 AI 개발 과정 자동화 • Gemini 적용 [1] https://www.theverge.com/2023/12/15/24003542/openai-suspends-bytedances-account-after-it-used-gpt-to-train-its-own-ai-model 9
  9. • 더 발전된 형태의 온디바이스 AI – IoT-레벨의 온디바이스 AI보다

    훨씬 발전된 형태 – 오픈 AI 모델들로 부스트됨 – 데스크탑 AI ✓ 데스크탑/PC: 적당한 크기의 모델들을 실행할 수 있는 충분한 계산 자원을 갖게 될 것 ✓ CPU: 머신러닝 특화 인스트럭션 셋 추가 • VNNI instruction in AVX (2022~) • Apple M1/M2/M3/M4 (2020~) ✓ 데스크탑 GPU/NPU: 머신러닝 연산에 전용되는 데스크탑 호환 하드웨어들의 등장 • Intel Core Ultra / Meteor lake (2023년 12월) • AMD Ryzen AI (2024년 1월) • Apple M 시리즈: 데스크탑에 통합 메모리 아키텍처를 기반으로 한 CPU/GPU 보급 • (Intel, AMD, NVIDIA: 데이터센터용 APU. E.g. Xeon max, AMD MI series and NVIDIA GH200) – 스마트폰 AI ✓ 성능 제약으로 인해 발전된 기능을 제공하기에는 무리가 있음 ✓ Tensor G3 on Pixel 8 (Google, 2023) • 클라우드로의 워크로드 위임을 통한 성능 확보 2024: 전망 (2) 오늘은 이 이야기를 해 볼까 합니다. 10
  10. • 독점적 기반 모델 (Foundation models) – 소수의 거대 기업이

    사전 훈련 언어 모델Pretrained Large Language Models을 독점적으로 개발하고 – 해당 모델을 거대한 클라우드 자원 위에서 운영하여 – 다양하고 복잡한 작업들을 처리 • ChatGPT의 예 – 어떻게 계산해도 원가를 맞출 수가 없음 ✓ 모든 회사가 ChatGPT의 가격 테이블에 자사의 서비스 가격 테이블을 (손해를 보며) 맞춤 – 규모의 경제로 더 싸게 맞출 수 있을까? ✓ 모델 자체의 성능 향상 ✓ 가격 주도 시장인가, 성능 주도 시장인가? 2023년 초까지의 전망 11
  11. • 독점적 파운데이션 모델 사업의 변화 – 성능: 그거 ChatGPT보다

    잘 돼요? ✓ 미뤄지는 공개 시점 – 비용과 연계하여 더욱 연기중 ✓ 경쟁 우위 유지 • 전체 사용자 대상으로 GPT-4o 를 무료 제공 시작 (2024년 5월 13일) – 비용: 너무 비싸요 ✓ 늦어지는 상용화 – 가능성: 이거 정말 잘 될 것 같은데? ✓ 이해 당사자들 간의 미묘한 관계의 끊임없는 재설정 • 파운데이션 모델도 오픈소스로? – 다양한 오픈소스 파운데이션 모델들이 있었으나, 기존에는 크기 및 성능 면에서 두각을 드러내지 못했음 – 2023년 봄부터 ✓ 기업: 우리도 할 수 있다는 걸 보여주자 ✓ 국가: 이런 기술을 특정 기업에 의존하면 공정 경쟁이 안된다 + 종속이 일어날 것. 그런 상황을 막자 2023년 봄 이후 12
  12. AI+딥 러닝: 오픈소스 문화 기반의 발전 • 이유 – GitHub

    이후에 활성화된 컴퓨팅 기반 연구+서비스 분야 – 타 분야는 오픈소스화 과정을 거쳤지만 딥 러닝은 그런 과정이 필요하지 않았음 • 실질적인 이유 – 너무 빠른 변화 속도: 6주, 90일, 6개월, 2년 – 규모가 유도하는 성능 향상 – 노하우에 가까운 개발 과정 ✓ 코드를 공개해도 못 만들 걸? 14
  13. • 허깅페이스의 2023년 – 약 30,000여개의 언어 모델이 등장 –

    지금 이 순간에도 나오고 있음 – 2024년엔 카운트를 굳이 안 합니다. • 20, 400, 30000 – 20여개의 사전 훈련 모델 – 400여개의 응용 모델 – 30000여개의 파인 튜닝 모델 • 그 결과 – 응용 모델 개발에 2주일 1주일 – 파인 튜닝은 하루: 의지의 문제 라마 이후 [1] https://github.com/Mooler0410/LLMsPracticalGuide 15
  14. • 허깅페이스의 2023년 – 약 30,000여개의 언어 모델이 등장 –

    지금 이 순간에도 나오고 있음 – 2024년엔 카운트를 굳이 안 합니다. • 20, 400, 30000 – 20여개의 사전 훈련 모델 – 400여개의 응용 모델 – 30000여개의 파인 튜닝 모델 • 그 결과 – 응용 모델 개발에 2주일 1주일 – 파인 튜닝은 하루: 의지의 문제 라마 이후 16
  15. • Llama 3 (2024년 5월) – 메타의 Llama 개선 모델

    – 사실상 상업적 용도 무제한 허용 ✓ (사실상일 뿐 무제한은 아님) – 퍼블릭 클라우드 회사들과의 협약 및 서비스 제공 – 18개월 전의 최고 성능에 해당하는 모델이 주어짐 • Falcon 2 (2024년 5월) – 아부다비의 자금력으로 만든 거대 언어 모델 – 11B 모델 (일반, 멀티모달) – 제약이 거의 없는 거대 언어 모델 (TII License) – 180B, 40B, 7.5B, 1.3B 크기 제공 예정 • Mixtral 8x22B (2024년 4월) – Mistral 22B 기반 MoE 모델 사전 훈련 오픈 언어 모델 • Mistral (2023년 11월) – 10B 미만의 크기 중 가장 다양한 용도로 동작 ✓ 다른 모델의 교정 모델로 사용할 수 있음 ✓ “Model distillation” – 완전 오픈 모델 (MIT 호환) – 작은 크기를 이용한 응용 케이스 ✓ Mixtral 8x7B: 실질적으로 적용가능한 크기의 MoE (Mixture of Experts), 12B만큼의 메모리로 동작 – Mistral Pro/Large 공개 (2024년 2월) ✓ 더 큰 모델, GPT-4 필적 성능 • Gemma (2024년 2월) – Google 의 공개 모델 ✓ Gemini와 동일 기술 사용 – Llama2 대비 제약이 굉장히 적은 라이선스 ✓ Gemma License: 사실상 제약 없음 – 상대적으로 작은 모델: 2B, 7B 모델 – 멀티모달 버전 공개: PaliGamma (2024년 5월) – Gemma 2: 27B 크기로 공개 예정 (2024년 6월?) 17
  16. • Gemini (2023년 12월) – 3가지 크기: Nano, Pro, Ultra

    ✓ Android 14에 Nano 내장 – 긴 입력 토큰 길이: 100만 토큰 (Gemini 1.5 Pro) – 이게 길면 ✓ 앞에서 설명한 ‘글’이 아주 길게 유지되는 것이고 ✓ 기억을 아주 많이 하는 언어 모델이 됨 • Claude v3 (2024년 3월) – Anthropic의 개선된 언어모델 – 3가지 크기: Haiku, Sonnet, Opus – 긴 입력 토큰 길이: 25만 토큰… 클라우드 기반 거대 언어 모델 서비스 • GPT-4o (2024년 5월) – GPT-4 언어모델군의 최신 버전 – 엔드 투 엔드 멀티 모달 모델 – 더 설명이 필요한지? • 비교: Perplexity – 주의: 자체 모델을 소유한 개발사가 아님 – 모델 + 검색엔진 + RAG 기반의 서비스 – GPT-4 turbo 또는 Claude 3 Sonnet 사용 18
  17. 그런데 오늘 주제는 로컬 AI, 온 디바이스 AI 아니었어요? …사실

    로컬 AI나 온 디바이스 AI 가 요새 나온 이야기가 아니랍니다. 최근에도 한 번 망했었어요; 19
  18. • AI 모델을 클라우드가 아닌 기기 자체에서 실행하는 것 •

    장점 – 낮은 지연 시간: 인터넷 연결 없이 즉각적으로 데이터 처리 – 개인정보 보호: 민감 데이터를 로컬 처리, 사용자 프라이버시 강화 – 대역폭 절약: 인터넷 연결 데이터 사용량 감소 – 신뢰성: 연결 의존성이 없는 AI • 사례 – 음성 비서: 실시간 음성 인식 및 응답 (예: Apple Siri, Google Assistant 등) – 이미지 처리: 실시간 사진 보정 및 객체 인식 (예: 카메라 앱) – 건강 모니터링: 웨어러블 기기에서의 지속적인 모니터링 및 데이터 분석 (예: 피트니스 트래커) – 스마트 홈 디바이스: 빠른 응답 및 프라이버시 보호를 위한 로컬 홈 자동화 시스템 제어 • 관련 기술 – 엣지 컴퓨팅, 신경망 처리 장치(NPU), 모델 양자화 등 On-device AI 21
  19. • iTerm2 – macOS에서 가장 많이 사용되는 터미널 에뮬레이터 •

    사건 – iTerm AI 기능 추가 (2024년 5월) ✓ OpenAI 키를 직접 설정하고 프롬프트 창을 열어서 질의를 하면 그에 맞는 터미널 명령을 알려주는 기능 • 예: input.mp4에서 음성 출력만 추출해서 mp3파일로 바꾸는 방법을 알려줘 ✓ 1년 반 동안 테스트 상태에 있던 기능인데 이번 베타 버전에 정식 적용 – 커뮤니티의 반발 ✓ (해당 기능을 켜고 OpenAI 키를 입력하지 않으면 동작하지 않는데도) 외부로 쿼리를 보내는 기능이 있는 것 자체가 싫다! – iTerm AI 기능 철회 ✓ 플러그인으로 처리하고 기능을 제거함 (2024년 5월 26일) • 교훈 – 프라이버시에 엄청나게 민감한 사용자 층 및 분야가 존재함 개인정보와 AI 사례: iTerm2 이야기 22
  20. • 구글의 시도들 – Android Things + NNAPI (Google, 2017)

    ✓ 온디바이스 AI 로 워크로드 분산 및 로컬 처리 ✓ 연합학습 개념 도입 (2018~) – MLKit (Google, 2017) ✓ 클라우드 오프로딩을 중심으로 한 모바일용 머신러닝 툴킷 ✓ 2020년 프로젝트 리부트 및 완전 온 디바이스로 전환 – EdgeTPU / Coral (Google, 2018~) ✓ USB 및 개발보드 형태 • Huawei NPU (2017~) – 양산 온 디바이스 AI 칩: 개당 3달러의 가격 • Core ML (Apple, 2017~) – 애플 기기의 NPU를 사용한 가속 • 그러나 – 다들 잘 모르죠 – 2020년 스케일 전쟁 시작 이후 다 묻힘 2017년: 온디바이스 AI 의 전성 시대와 겨울 23
  21. • GPT-3 (OpenAI, 2020) – 창발 현상의 발견: 모델이 커지면

    뭔가가 더 나온다. – 가르치지 않은 태스크를 처리하는 능력 • LaMDA (Google, 2021) – 인 컨텍스트 러닝 기반 페르소나를 줄 수 있는 모델 • Pathways (Google, 2022) – 크기를 키워가면서 어떤 크기에서 어떤 현상이 창발되는지 추적 • ChatGPT (OpenAI, 2022) – RLHF 기반의 튜닝을 통한 일반 언어 모델의 가능성 서비스 • GPT-4 (OpenAI, 2023) – µ-parameterization의 최초의 거대 언어 모델 훈련 적용 • Claude Sonnet (Anthropic, 2023) – 모델 기능 모듈 발화 과정을 대규모로 첫 추적 (2024) 스케일 전쟁 24
  22. 스케일 전쟁: 5년간 만 배 [1] “Computing Power and the

    Governance of Artificial Intelligence”, Hadfield et al., 2024 25
  23. • 국가 단위의 초대규모 행렬 연산 자원 확보 경쟁 –

    미국 ✓ Xeon Max 전량을 Argonne로 보냄. Cerebras C2 및 Groq 의 초기 물량 구매 (2022년) – 영국 ✓ ExaScale 프로젝트 (2023년 5월~), NVIDIA로 결정 (2023년 11월) – EU ✓ MareNostrum 5 런칭 (2023년 12월), Top500 8위 달성 – 일본 ✓ SB Institutions 런칭 (2023년 8월): “일본인에 의한,일본인을 위한,일본에서 만든” 언어 모델 ✓ Fugaku 를 언어 모델용으로 전용 / Tsubame 4.0 (2024년 4월) ✓ 일본 정부의 1500억엔 인프라 투자 (2024년 4월) – 중국 ✓ 대중 수출 규제를 피하기 위하여 중고가 GPU를 전세계에서 전부 싹쓸이 중 (2023년 11월) ✓ 게이밍 GPU를 AI용도로 리팩토링하는 회사들의 등장 격전지: GPU 하이퍼스케일러 시장 / 국가 [1] https://www.cnbc.com/2023/07/07/why-japan-is-lagging-behind-in-generative-ai-and-creation-of-llms.html [2] https://www.softbank.jp/en/corp/news/press/sbkk/2023/20230804_02/ 26
  24. • 빅테크들의 경쟁 – Microsoft 의 H100 입도선매 (20만대, 2023년

    전체 기간) – Meta: 2024년 말까지 H100 35만대! (2024년 3월) – Microsoft: 2024년까지 180만대, 2030년 말까지 50조원 투자! (2024년 5월) – Google: 그게 얼마든 AI 하이퍼컴퓨터에 마이크로소프트보다는 더 많이 투자! (2024년 5월) ✓ 자체 AI 인프라스트럭처를 (슈퍼컴퓨터보다 좋은 거라는 의미로) AI 하이퍼컴퓨터라고 부름 (2023년 4월~) • NVIDIA의 엄청난 성장 – 2024년 1분기: 25’1Q YoY 262% 성장 ✓ (NVIDIA는 회계연도가 1년 앞서 갑니다) – WSJ: 이것이 ”4차 산업 혁명” 의 실체가 아니냐? 격전지: GPU 하이퍼스케일러 시장 / 기업 [1] https://redmondmag.com/Articles/2024/05/13/Microsoft-Next-Big-AI-Investment-France.aspx [2] https://news.microsoft.com/en-au/features/microsoft-announces-a5-billion-investment-in-computing-capacity-and-capability-to-help-australia-seize-the-ai-era/ [3] https://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-first-quarter-fiscal-2025 [4] https://www.wsj.com/finance/stocks/ai-is-driving-the-next-industrial-revolution-wall-street-is-cashing-in-8cc1b28f 27
  25. • 국가간 알력 – GPU를 전략 자원으로 취급 ✓ 화웨이의

    사우디 클라우드 리전 계획 발표 후 • 미국의 대 사우디 GPU 수출규제 시작 (2023년 8월 31일) ✓ 미국의 대중국 GPU 수출 규제 시작 (2023년 10월 17일) • A100, A800, H100, H800, L40, L40S, RTX 4090 까지 • 고스펙~중스펙에 이르는 AI에 활용 가능한 거의 모든 GPU의 수출 제한 ✓ 중국의 대응 • CUDA 호환 기반 GPU 스타트업 (Denglin Technology) 지원 (2023년 7월) • 화웨이의 Ascend 910B GPU: NVIDIA A100목표 개발, H20 성능 달성 (2024년 3월) • Arm China의 Zhouyi NPU 개발 지원 (2024년 3월) ✓ NVIDIA의 대응 • 중국 전용 GPU인 4090D 발표 (2023년 12월 14일) – 현재도 잘 팔리고 있습니다. • 화웨이에 대항하여 가격 할인 압력 대응 준비 시사 • 초법적 지원 – 이스라엘 정부의 인텔 반도체 공장 설립 정부 보조금 지원 ($3.2B, 4.1조원, 2023년 12월) – 일본 정부의 AI 인프라스트럭처 지원 (1500억엔, 2024년 5월) 격전지: GPU 하드웨어 시장 / 상황 [1] https://www.tomshardware.com/news/us-bans-sales-of-nvidias-h100-a100-gpus-to-middle-east [2] https://www.cnbc.com/2023/10/17/us-bans-export-of-more-ai-chips-including-nvidia-h800-to-china.html [3] https://blogs.nvidia.com/blog/2023/10/17/tensorrt-llm-windows-stable-diffusion-rtx/ [4] https://videocardz.com/newz/nvidia-geforce-rtx-4090d-reportedly-has-no-oc-support-and-lower-tdp-of-425w [5] https://www.scmp.com/tech/tech-war/article/3253943/tech-war-huaweis-ai-chip-capabilities-under-intense-scrutiny-after-market-leader-nvidia-taps-it [6] https://www.tomshardware.com/news/chinese-gpu-developer-gets-government-funds [7] https://www.youtube.com/watch?v=Rbnb2rqUSBU [8] https://www.techpowerup.com/321033/arm-china-develops-npu-accelerator-for-ai-targeting-domestic-cpus 28
  26. • 아젠다 세팅 – NVIDIA의 아젠다에서 벗어나는 토픽이 필요 •

    현실적인 문제 (및 해결) – 수요가 공급을 아득히 넘어서는 상황 – 로컬 AI 운영의 기술적 허들이 오픈소스로 어찌저찌 해결되는 중 • 2023년에 깨달은 것 – 사람들이 AI에 바라는 것들의 대부분은 별로 안 복잡하다! • 로컬에서만 할 수 있는 일들 – 프라이버시 기반 초 개인화 AI 그런데 왜 다시 로컬 AI? 29
  27. • Llama.cpp (Georgi Gerganov, 2023) – Whisper.cpp 로 유명 ✓

    OpenAI Whisper를 CPU로 돌리는 도구 – 맥에서 Llama를 돌릴 수 없을까? ✓ Whisper.cpp 를 원용해서 Llama를 CPU로 돌려보자! ✓ 어 되네? – 이후 수많은 구현체의 밑바탕이 됨 ✓ 오프라인에서 LLM이 돈다? Llama.cpp 기반입니다. • Ollama (2023) 및 다양한 구현체 – Llama.cpp 를 엔진으로 사용한 로컬 AI 서빙 솔루션들의 대거 등장 – Ollama: 배포의 혁신 ✓ 단일 바이너리에 모든 구현체 (서버+클라이언트)를 다 집어넣음 – NVIDIA: Chat with RTX 공개 (2024년 3월) • 문젯점 – 기반이 되는 Llama.cpp 의 구현 상태: 돌아만 가면 되…나? ✓ MAME emulator 같은 구조 – 굉장히 적은 외부로부터의 실질적 기술 기여 Llama.cpp / ollama 30
  28. • 역사 – 2023년 10월 AI PC 컨셉 공개 –

    2024년 1월 코파일럿 키보드 버튼 및 AI PC 공식화 – 2024년 3월 스펙 고정 – 2024년 5월 첫 공식 인증 PC 공개 (Microsoft) ✓ 퀄컴 스냅드래곤 엘리트 기반의 6종 PC • 기능 – 로컬 코파일럿 기능 수행 – NPU, CPU 및 GPU를 워크로드에 따라 섞어 제공 • 요구사항 – 45 TOPS 이상의 NPU – 16GB (또는 32GB) 이상의 메모리 • 왜? – 브랜드 전략 하위에 모든 AI 서비스를 구분되지 않게 묶음 – 양두구육 전략 Microsoft AI PC 31
  29. • 브라우저+AI – Vivaldi Browser 를 필두로 다양한 브라우저들이 로컬

    AI를 도입 – 낮은 구현 난도: 모두 Ollama wrapper – 적절한 도입 유인 동기: 프라이버시를 지켜주는 AI 도입 • 구글 크롬 브라우저의 도입 – Gemini Nano 내장: Google I/O 2024 공개 (2024년 5월) – 워크로드 종류에 따라 하이브리드 AI 구성 제공 • WebGPU + WebAssembly – 브라우저 레벨에서의 가속기 가상화 – LLM뿐 아니라 일반 AI 등도 브라우저에서 쉽게 돌릴 수 있도록 함 • 문젯점 – 아직 리눅스에선 WebGPU가 안됨 Chrome built-in LLM API [1] https://developer.chrome.com/docs/ai/built-in [2] https://developer.chrome.com/docs/ai 32
  30. • AI Edge SDK for Gemini Nano – Gemini Nano를

    안드로이드에 내장 – 개발자들이 SDK를 이용하여 로컬 AI의 기능을 불러 사용하거나, 직접 쿼리할 수 있게 함 – 구글, 삼성 등 • 문제: NPU 벤더들의 미비한 지원 – 미비하거나 부재한 안드로이드 NNAPI 가속 – 퀄컴의 NPU SDK (Neural Processing SDK, AI Engine Direct SDK): 별도 운영 및 개발 중 – 화웨이 HiAI DDK: Kirin 칩을 사용하는 경우에 한해 자체 스펙으로 제공중 – 삼성 NPU SDK (ONE): 멀티플랫폼 대상 자체 SDK 지원 Android 14 33
  31. • 기다려 볼까요? • 2주 남았음 – M4, ACDC, …

    • 추측들 – 게이트웨이 홀더의 파워 – LLM을 비용을 지불하고 넣을까? 아니면 – 비용을 받고 넣어줄까? iOS 18 34
  32. • TOPS (Trillion Operations Per Second) – AI 하드웨어의 연산

    능력을 측정하는 데 흔히 사용되는 지표 – 1초 동안 100% 활용률로 AI 가속기가 처리할 수 있는 연산 수 – 비교: NVIDIA 4090: 191 TFLOPs, 1321 TOPS (TensorCore) • 마이크로소프트 AI PC 인증 – 40 TOPS 를 기준으로 시작 – 이후 45 TOPS로 상향 ✓ 40 TOPS에 맞춰 준비하던 개발사들: 로드맵 변경 • Intel (Meteor Lake, 10 TOPS -> Lunar Lake, 45+ TOPS) • AMD (Hawk Point, 16 TOPS -> Strix Point, 48 TOPS)… ✓ 공식 AI PC 공개: 전부 다 Qualcomm Snapdragon • 45 TOPS는 충분한가? – NVIDIA: 100~1300 TOPS가 필요합니다! – Apple: 17 TOPS (Apple A16, 2023), 38 TOPS (Apple M4, 2024) AI PC의 기준: 45 TOPS? [1] https://www.qualcomm.com/news/onq/2024/04/a-guide-to-ai-tops-and-npu-performance-metrics [2] https://www.embedded.com/tops-vs-real-world-performance-benchmarking-performance-for-ai-accelerators/ 36
  33. • TOPS의 한계 – AI 가속기의 대략적인 연산 능력은 보여주지만,

    처리 가능한 연산의 복잡성은 반영하지 못함 – AI 가속기가 전체 하드웨어 장치에서 갖는 중요성을 정확히 포착하기 어려움 – 에너지 효율성, 메모리 대역폭, 소프트웨어 최적화, 특정 AI 워크로드 등의 요소를 고려하지 않음 • 그런데 왜 기준으로 사용할까? – 트랜스포머 아키텍처 가속 및 다양한 요소들의 수렴화: 특정 AI 워크로드가 요구하는 OPS 수가 비슷해짐 – 많은 요소들이 고정된 상황에서는 유효한 기준일 수 있음 – 개인용 컴퓨터 ✓ 메모리 종류, CPU 인스트럭션, 스토리지 속도 들이 적정 수준 내에서 평준화 – 그리고 복잡하면 사람들이 몰라요; TOPS를 기준으로 삼는 이유 [1] https://www.embedded.com/tops-vs-real-world-performance-benchmarking-performance-for-ai-accelerators/ 37
  34. • 하드웨어 설계 • 모델 경량화 및 압축 • 모델

    인퍼런스 소프트웨어 • 온 디바이스 / 로컬 AI 추론 워크로드 – 로컬 이미지 분석 및 처리 – 로컬 이미지 / 영상 편집 – 로컬 LLM ✓ (로컬 정보 분석 및 처리 등 다른 것들이 많았는데 전부 수렴중…) – 로컬 멀티모달 모델 로컬 AI의 기술적인 포인트 38
  35. 로컬 LLM의 현재 병목: 메모리 • NPU + 메모리 –

    CPU 내장 NPU: 전용 메모리를 갖고 있지 않음 – 운영체제 메모리에서 떼어 할당해야 함 • 용량 – 4비트 / 8비트 양자화: 1B당 0.6GB (4비트)~1GB (8비트) • 대역폭 – 5600MHz DDR5 듀얼채널의 경우: 5600MHz x 8bytes x 2 x 2 = 179.2 GB/s – Apple M4의 대역폭: 120GB/s, M2 Ultra: 800GB/s – NVIDIA H100 SXM5의 경우: 3TB/s • 실질적 서비스 가능 LLM – 데스크탑: 2B 파라미터 이하 – 스마트폰: 1B 파라미터 정도의 소형 언어 모델 39
  36. 로컬 AI 하드웨어 최적화 : UMA • 통합 메모리 아키텍처

    (Unified Memory Architecture) – CPU, GPU가 동일한 메모리에 접근하여 연산 수행 – 역사와 전통의 아키텍처이나 계속 패배해왔음 ✓ AMD 불도저 아키텍처와 주가 3달러 시대: FP연산을 GPU에 맡길려고 했는데 그만 망했어요… ✓ 카베리 APU의 HSA (Heterogeneous System Architecture) – 데스크탑: 콘솔 게임기용으로 살아남아 명맥 유지 – 모바일에서 본격적으로 사용됨 ✓ 안 그래도 자원 모자라는데… • 당시의 문젯점 – 대역폭 경쟁: CPU와 GPU가 서로 메모리 대역폭을 차지하려고 함 – 칩 생산 난도: 발열 관리의 어려움 – 라이브러리 호환성 문제 등등… 40
  37. 로컬 AI 하드웨어 최적화 : UMA • 모바일에서 데스크탑으로 –

    Apple M1: UMA 구조를 도로 데스크탑으로 가져옴 ✓ 대역폭이 문제면 대역폭을 엄청나게 키우면 되고 ✓ 발열이 문제면 열 덜 나는 CPU 아키텍처를 쓰면 되고 ✓ HSA 프로그래밍이 어려우면 컴파일러가 해 주면 되지 – Apple M2 Ultra / M4 ✓ 192GB의 통합 메모리 풀, 800GB/s 이상의 대역폭 ✓ CPU, GPU, ANE (애플의 NPU) 까지 전부 동일한 메모리에 접근 • 자세히 보면 다른 NPU 접근들 – Intel Meteor Lake NPU ✓ Movidius 기반의 NPU를 CPU 내부에 내장 – AMD Hawk Point NPU ✓ XDNA 아키텍처 기반 구현: ONNX 인퍼런스를 기본으로 지원 • Radeon Instinct와 아키텍처 공유 [1] https://www.anandtech.com/show/18878/intel-discloses-new-details-on-meteor-lake-vpu-block-lays-out-vision-for-client-ai [2] https://www.techpowerup.com/316436/amd-ryzen-8040-series-hawk-point-mobile-processors-announced-with-a-faster-npu 41
  38. • 정밀도 손실 – 트랜스포머 구조에서 일괄적으로 수치 정밀도를 조정하면

    오차 누적의 문 제가 생김 • 하드웨어 지원 부재 – 양자화한 모델을 하드웨어가 가속하지 않으면 메모리상 잇점은 있어도 성 능상 잇점이 없음 – 예: Apple M3/M4, NVIDIA H100/B100 • 모델 훈련 과정 대응 – 양자화시 성능 하락을 막기 위해 아예 낮은 정밀도로 훈련하는 방법 (Google AQT, 2023) • 모델 호환성 개선 – 모델 양자화가 사용하는 프레임워크나 라이브러리 의존성이 있음 – 돌려보면 정확도가 다른 경우들 • 수치 표현력 하락 대응 – 가중치를 성기게 처리하는 것이라 입력 데이터가 복잡하거나 정밀할 수 있는 멀티모달 대응 해상력이 떨어짐 로컬 AI 상의 모델 양자화 과제 42
  39. • Llama.cpp (는 설명했으니 생략) • vLLM (2023. 6) –

    메모리 절약을 위한 PagedAttention 알고리즘을 구현한 오픈소스 / Llama 지원과 때맞춰 탄력 – ROCm 지원 시작 (2023. 12) • TensorRT-LLM (NVIDIA, 2023. 10) – 거대언어모델의 고속 인퍼런스에 촛점을 두고 TensorRT를 최적화한 구현체 – Triton Inference Server 와 결합한 자동 양자화 (INT4, INT8 weight 및 FP16 activation과 통합) – 간단하고 빠른 인퍼런스 인터페이스 제공 • 운영체제 벤더들의 인퍼런스 가속 제공 예정 – Microsoft Windows 11 – Google Android / Google Chrome Browser – Apple CoreML 로컬 인퍼런스 소프트웨어 43
  40. • PC 외장 장치 NPU 시장의 재탄생 – 2017년 반짝

    했던 시장 ✓ Movidius compute stick, EdgeTPU 등… – CPU의 라이프사이클보다 훨씬 빠른 AI 도입 요구사항 증가 ✓ 아니 AI 기능 더 활용할려고 CPU를 바꿔야 돼요? – GPU의 어마어마한 가격 – CPU 내장 NPU의 지속적 발전과 맞물려 IP 시장이 열릴 수 있음 – 2024년~2026년 사이 외장형 NPU 시장의 재활성화 가능성 예측해보기 • Arm 기반 CPU의 춘추전국시대 – MS-Qualcomm 의 Windows-Arm 독점 종료 예정 (2024) – Google, Microsoft, NVIDIA 모두 Arm 기반 CPU를 발표한 상황 ✓ 서버용으로 마케팅 중 ✓ NVIDIA: 컨슈머 시장 상대로 Arm 을 가장 많이 팔아본 회사 중 한 곳 – 부가가치 창출 포인트: NPU 44