Upgrade to Pro — share decks privately, control downloads, hide ads and more …

마라톤 끝의 단거리 스퍼트: 2025년의 AI

마라톤 끝의 단거리 스퍼트: 2025년의 AI

이 발표에서는 2025년 상반기의 AI를 크게 근본적인 패러다임 전환과 지정학적 경쟁의 심화라는 두가지 관점으로 요약해봅니다.

이 발표자료는 2025년 7월 26일 Google I/O Extended 인천의 세션 발표 슬라이드입니다.

This presentation summarizes AI in the first half of 2025 from two main perspectives: fundamental paradigm shifts and the intensification of geopolitical competition.

These slides are from a session presentation at Google I/O Extended Incheon on July 26, 2025.

Avatar for Jeongkyu Shin

Jeongkyu Shin PRO

August 01, 2025
Tweet

More Decks by Jeongkyu Shin

Other Decks in Technology

Transcript

  1. AI Enterprise AI Cloud AI Open Source AI MLOps 마라톤

    끝의 단거리 스퍼트 :2025년의 AI 신정규 래블업 주식회사 2025. 7.26 Google I/O Extended Incheon
  2. • Lablup Inc. : Make AI Accessible – 오픈소스 AI

    인프라 운영 체제 플랫폼: Backend.AI 개발 • 오픈소스 개발 – Principal Researcher, KOSSLab. (2015~2019) – 텍스트큐브 오픈소스 메인테이너 (21주년!) • IT – Google Developer Experts ✓ AI (ML/AI, 2017~) / Cloud (2025~) ✓ MLOps Working Group (2019~2020) – Google For Startups Accelerator Mentor (Technology) – SW산업유공 산업포장 (2024) – SW산업유공 대통령표창 (2018) • 물리학 / 뇌과학 – 통계물리학 박사 (복잡계 시스템 및 계산신경과학 분야) – (전) 한양대학교 ERICA 겸임교수 (소프트웨어학부) 안녕하세요! 2
  3. • 래블업은 대규모 AI 하드웨어 / 소프트웨어를 간편하게 확장하고, 운영할

    수 있도록 돕는 제품을 만들고 있습니다. – 대규모 기반 하드웨어에서 분산 처리로 인한 사용률 저하 최소화 – 대규모 AI 모델 학습 / 추론 시 하드웨어 상호 연결 및 운영 자동화 • Backend.AI는 정교한 하이퍼스케일 GPU 클러스터링 솔루션으로, AI 학습 및 서빙을 간소화, 통합, 가속화할 수 있는 제품입니다. – Fractional GPU 기술이 적용된 GPU 플랫폼을 적은 비용으로 제공 – AI 가속기 지원 및 AI 워크로드 관리에 최적화된 Sokovan 오케스트레이터 및 스케줄러 – 데이터를 우선으로 고려하는 워크로드 가속 기술 – AI 추론에 필요한 워크로드 스케일링 제공 • Backend.AI는 다양한 분야에서 검증된 엔터프라이즈용 플랫폼입니다. – 기업, 은행 및 금융기관, 의료기관, 연구센터 및 대학 등 다양한 산업분야 고객사에 비용 절감 효과 제공 래블업 3
  4. • 들어가며 • 추론 모델과 테스트 시간 컴퓨팅 혁명 •

    Deepseek 쇼크와 중국의 AI 굴기 • AI 인프라 전쟁 • 실리콘 엔진 • 소버린 AI의 부상 • 혁신가들 • 프론티어 모델 지형 • 거대 서비스 운영의 본격화 • 코딩 AI의 확산 • 마치며 오늘 할 이야기 4
  5. • 근본적인 패러다임 전환 – 학습 시간에서 테스트 시간 컴퓨팅으로

    – 추론 모델의 등장과 보편화 – 진입 장벽의 극적인 하락 2025년 AI 생태계의 두 가지 거대한 흐름 • 지정학적 경쟁의 심화 – Deepseek 쇼크와 기술 패권 경쟁 – 소버린 AI의 부상 – 인프라와 에너지 주권의 중요성 6
  6. • 기존: 막대한 자본을 투입하는 학습 시간 컴퓨팅 – 모델

    크기, 데이터셋 크기, 학습 연산량 확장 – 수십억 달러의 학습 비용 • 현재: 추론 과정에 연산을 투입하는 테스트 시간 컴퓨팅 – 추론 중 더 많은 계산으로 깊은 사고 유도 – OpenAI o1, DeepSeek R1 등 추론 모델 등장 – 진입 장벽의 극적인 하락 테스트 시간 컴퓨팅: AI 개발의 새로운 패러다임 7
  7. • AI 인프라 전쟁 – 랙당 250kW 초과 전력 밀도

    – 액체 냉각 시스템 전환 – 원자력 에너지 동원 • 실리콘 경쟁 구도 – Nvidia의 AI 팩토리 플랫폼 – AMD의 개방형 전략 – 하이퍼스케일러의 자체 칩 개발 주요 기술적 변화와 시장 영향 • 프론티어 모델 분화 – Claude 4, Gemini 2.5 Pro, Llama 4 – 특정 분야 특화 경쟁 – 오픈소스 vs 클로즈드소스 격차 축소 • 코딩 AI의 진화 – 자율적 AI 팀원 등장 – GitHub Copilot Agent, Devin – Claude Code 와 Gemini CLI – 생산성 역설 관찰 8
  8. • 각국의 핵심 국가 안보 아젠다로 부상 – 자국 AI

    모델, 인프라, 데이터 통제 • 주요국 대규모 투자 계획 – 미국, 영국, 프랑스, 일본 등 • 대한민국 100조 원 투자 계획 – 글로벌 AI 3대 강국 목표 • 에너지 주권이 곧 AI 주권 지정학적 함의: 소버린 AI의 시대 9
  9. • 2024년 중반까지의 LLM 성능 향상 방식 – 학습 시간

    컴퓨팅(Train-Time Compute) 중심 – 모델 크기, 데이터셋 크기, 학습 연산량 확장 – 매우 효과적이었으나 비용이 수십억 달러 수준으로 상 승 • 근본적인 패러다임 전환의 촉발 – 학습 단계의 스케일링 법칙이 추론 단계에도 적용 – 테스트 시간 컴퓨팅(Test-Time Compute)의 가능성 확인 – 추론 최적화에 대한 투자 증가 패러다임 전환의 배경 11
  10. • 사고 모델(Reasoning Models, RLMs)의 특징 – 생각의 사슬(Chain of

    Thought) 추론 과정 – 단계별 추론을 통한 문제 해결 – 수학, 물리학, 화학 분야에서 검증된 성능 • 인간 전문가 수준의 인지 능력 접근 – 복잡한 문제에 대한 깊은 사고 – 다단계 추론과 검증 과정 – 실시간 적응과 학습 가능성 사고 모델의 등장 12
  11. • OpenAI o1 (2024년 9월) – 강화학습으로 "생산적 사고" 학습

    – 국제수학올림피아드: 74.4% 정답률 ✓ (GPT-4o: 9.3%) – GPT-4o 대비 6배 비싸고 30배 느림 – 속도-비용-추론 깊이의 삼중고 OpenAI o1 vs DeepSeek R1 • DeepSeek R1 (2025년 1월) – o1과 동등한 추론 능력 – GRPO 강화학습 기법 – 멀티헤드 잠재 어텐션 효율화 – 훨씬 저렴한 비용으로 서비스 – Deepseek 쇼크의 핵심 촉매제 13
  12. • 최상위 모델 간 성능 격차 축소 – 2023년: 1위-10위

    Elo 점수 차이 11.9% – 2025년 초: 5.4%로 대폭 감소 – 더 많은 개발사의 고품질 모델 생산 • 오픈소스 vs 클로즈드소스 격차 소멸 – 2024년 초: 8.04% 성능 차이 – 2025년 2월: 1.70%로 축소 – 광범위한 개발자 접근성 향상 프론티어 모델의 수렴 현상 14
  13. • 하이브리드 전략 – 학습/테스트 시간 컴퓨팅 결합 – 제한된

    리소스 하 최적 성능 • 적응형 추론 및 API 진화 – 추론 예산(inference budget) 설정 – 이중 계층(dual-tier) AI 시스템 – 질문 복잡도에 따른 모델 선택 차세대 추론 아키텍처의 방향 • 에이전트 검색의 고도화 – Search-o1, DeepRAG 등 – 다단계 검색(multi-hop retrieval) – 동적 정보 탐색과 쿼리 정제 • 테스트 시간 학습 – 추론 중 실시간 파라미터 조정 – 학습과 추론의 경계 소멸 – 동적 적응 능력 15
  14. • AI 개발 경제성의 근본적 변화 – 학습을 위한 대규모

    자본의 필요성 감소 – 추론 알고리즘과 효율성이 핵심 경쟁력 • 기존 선두주자들의 해자 약화 – 막대한 초기 학습 비용 없이 프론티어 성능 달성 – DeepSeek R1: 적은 예산으로 o1 수준 성능 • 새로운 지역 경쟁자들의 부상 – 중국, 유럽 등에서 강력한 도전자 등장 – 기술 혁신이 자본력을 극복하는 시대 경제적 파괴와 새로운 경쟁 구도 16
  15. • DeepSeek-V3, R1의 시장 진입 – 671B 파라미터의 대규모 모델

    – 학습 비용 단 557만 달러 (Meta Llama의 1/100) – 하드웨어 제재 하에서도 세계적 수준 달성 • 시장 반응과 충격 – 미국 AI 관련 주가 급락 – 중국 AI 기술력에 대한 재평가 – 효율성과 알고리즘 혁신의 중요성 부각 2025년 1월의 파장: DeepSeek의 충격적 등장 18
  16. • 추론 시간 스케일링을 통한 모델 성능 향상 – 2024년

    하반기부터 추론 시간을 통한 스케일링 도입 (OpenAI) – 어떤 방식으로 데이터를 만들고 구현해야 하는지 정확한 방법이 알려지지 않음 • DeepSeek – 2024년 3개의 언어 모델을 오픈 모델로 공개하며 두각 – DeepSeek-Coder: 코딩용 모델 중 두각을 보임 – DeekSeek-V3 (2024년 12월) ✓ DeepSeek의 최신 언어 모델 ✓ 대부분의 선단 오픈 모델들과 대등한 성능 • DeepSeek-R1 (2025년 1월) – 사고 모델 (Reasoning model)을 완전 공개 모델로 발표 – 만드는 레시피도 함께 공개 – 비용과 방법 양 측면에서 개발 커뮤니티에 큰 쇼크를 안김 DeepSeek 쇼크 • 충격의 이유 – 엄청나게 저렴한 취종 훈련 비용 ✓ 개발 과정을 뺀 최종 훈련 비용만 고려한 경우임 ✓ Llama 2보다도 최종 훈련 비용이 저렴했음 – 사고 모델을 만드는 방법 공개 ✓ Reinforcement Learning 기반의 사고 모델 • 답만 맞으면 중간 과정을 인정해주자 ✓ 순차적인 훈련 과정 • 답이 확실한 문제부터 훈련을 마치고 점차 옮겨가기 – 하드웨어 최적화 접근 ✓ Nvidia Hopper 아키텍처를 밑바닥까지 들어가서 네트워크 단에서 최적화 ✓ 최초의 FP8 기반 훈련 모델 19
  17. • 효율적인 아키텍처 – MoE(Mixture of Experts) 활용 ✓ Switch

    Transformer (Google, 2021): 가능성 입증 ✓ 서빙시 비효율성 존재 ✓ Expert 모델 크기를 GPU 크기로 줄일 수 있어 훈련시 GPU-GPU 네트워크의 중요도가 낮아짐 ✓ NVLink 수입이 차단된 중국에서 적극 활용 – 추론 시 37B 파라미터만 활성화 – FP8 혼합 정밀도 훈련 • 알고리즘 혁신 – GRPO 강화학습 기법 – 멀티헤드 잠재 어텐션 – 효율적인 메모리 관리 DeepSeek의 기술적 혁신 • 하드웨어 최적화 – H800 GPU 제한 극복 ✓ GPU-GPU 네트워크를 연산코어 일부를 활용하여 자체 구현 – 소프트웨어 최적화로 성능 달성 – 자체 개발 인프라 활용 • 오픈소스 전략 – 모델 가중치 공개 – 연구 커뮤니티 활성화 – 글로벌 협력 생태계 구축 20
  18. • 기술적 의미 – 하드웨어 제약이 혁신의 동력이 될 수

    있음 – 알고리즘 효율성이 원시 계산력만큼 중요 • 경제적 의미 – AI 개발 비용 구조의 파괴적 변화 – 진입 장벽의 극적인 하락 • 지정학적 의미 – 미국의 반도체 제재 효과성에 대한 의문 – 중국 AI 생태계의 자립 능력 입증 – 기술 냉전의 새로운 국면 Deepseek 쇼크의 다층적 분석 21
  19. • Zhipu AI – GLM-4 시리즈 출시 – 100만 토큰

    컨텍스트 윈도우 – 중국어 특화 성능 – B2B 시장 공략 • Moonshot AI – Kimi 챗봇 서비스 – 초장문 문서 처리 특화 – 중국 내 빠른 시장 점유 – Kimi K2: Reasoning 모델이 아니지만 프론티어 성능 중국의 광범위한 AI 공세 • 바이두 – ERNIE 4.0 고도화 – 검색 통합 AI 서비스 – 자율주행과의 시너지 • 화웨이 – Pangu 모델 지속적 공개 – 최근 내부 고발 사태 ✓ 다른 회사 모델 복사해온 팀이 고과를 독점 ✓ 시사점 • 알리바바 – Qwen 시리즈 오픈소스화 – 클라우드 서비스 통합 – 글로벌 시장 진출 22
  20. • 단기적 영향 (2025년) – 글로벌 AI 가격 경쟁 심화

    – 오픈소스 모델의 급속한 발전 – 미국 기업들의 효율성 중시 전략 전환 • 중기적 영향 (2025-2027년) – AI 기술의 다극화 – 지역별 특화 모델 생태계 형성 – 새로운 국제 협력과 경쟁 구도 • 장기적 시사점 – 기술 헤게모니의 재편 – AI 안전과 통제에 대한 새로운 접근 – 글로벌 AI 거버넌스의 필요성 증대 영향은 어떻게 될까? 23
  21. • 전력 밀도의 극적인 증가 – 기존: 랙당 10-20kW –

    현재: 250kW 이상 요구 – 미래: 500kW-1MW 목표 • 냉각 시스템의 패러다임 전환 – 공랭식에서 액체 냉각으로 전환 – 직접 칩 냉각(Direct-to-chip) 기술 – 침수 냉각(Immersion cooling) 도입 • 데이터센터 설계의 근본적 변화 데이터센터 혁명: AI를 위한 재설계 25
  22. • GPU의 막대한 전력 소모 문제: – 최신 GPU (Nvidia

    H200/B200): 최대 400~1000W – 수천 대 이상의 클러스터는 수 메가와트 단위 소모 • 데이터센터 전력 소비량의 급증 – 2022년 데이터센터 전력 소비량 460 TWh ✓ 프랑스의 국가 연간 소비량 (463TWh)과 비슷 – 2026년까지 1,050 TWh 돌파 예상 ✓ 세계 5위 국가 (일본-러시아 사이) 의 전력 소비 규모 • 전력 확보 전략의 다변화 – 재생 에너지 대규모 투자 – 원자력 발전소 재가동 및 신설 – 전용 발전 시설 구축 • 에너지 주권이 곧 AI 주권 에너지 확보 전쟁: 끝없는 전력 수요 26
  23. • 냉각 부담 증가 – 고급 냉각 방식 필수 요구

    (액침 냉각, 수냉식) – Nvidia Blackwell 아키텍처: 수냉식 냉각 기본 요구 – 데이터센터 전력 1kWh당 냉각수 약 2리터 소모 • 액체 냉각의 필수화 – 열 밀도 증가로 공랭 한계 – PUE 1.1 이하 목표 – 에너지 효율성 30% 개선 • 직접 칩 냉각 기술 – 콜드 플레이트 방식 – 마이크로채널 냉각 – 열 전달 효율 극대화 냉각 기술의 진화와 도전 • 침수 냉각의 부상 – 전체 서버 침수 방식 – 비전도성 냉각액 사용 – 균일한 온도 분포 • 통합 냉각 솔루션 – 하이브리드 접근법 – AI 워크로드 최적화 – 실시간 열 관리 27
  24. • AI와 전력 – 아일랜드의 예: 2022년 국가 전기 사용량의

    1/5를 DC에 사용 – DC 전기 소비량의 증가: 2026년 1PWh 예상 ✓ 현재 일본 1년 총 전력 생산량에 해당 • 원자력 – Microsoft (10월) – 스리마일섬 원전 계약 ✓ 2022년 12월 수력발전소 옆에 IDC 준공 및 운용 중 • SMR – Google (2024. 10. 15) – Kairos – Amazon (2024. 10. 16) – Dominion Energy, Northwest, X-Energy ($500M) 에너지 효율성과 AI: 원자력 2024년 봄 이야기… 28
  25. • 빅테크의 원자력 투자 – Microsoft: Three Mile Island 재가동

    – Google: Kairos Power SMR 계약 – Amazon: X-energy SMR 투자 • 전용 원자력 발전소 – 24/7 안정적 전력 공급 – 탄소 중립 목표 달성 – 장기 전력 구매 계약 원자력과 AI의 결합 • SMR(소형모듈원자로)의 부상 – 건설 기간 단축 – 모듈식 확장 가능 – 도심 근접 배치 가능 • 규제와 안전 고려사항 – 가속화된 인허가 절차 – 새로운 안전 기준 – 지역 사회 수용성 29
  26. • 데이터센터 입지 경쟁 – 전력 인프라가 풍부한 지역 선점

    – 북유럽, 캐나다 등 냉각 유리 지역 – 정치적 안정성과 규제 환경 고려 • 해저 케이블과 네트워크 주권 – AI 트래픽 전용 케이블 구축 – 지연시간 최소화 경쟁 – 데이터 주권과 보안 이슈 • 인프라 동맹과 블록화 – 같은 진영 국가 간 인프라 공유 – 기술 표준과 보안 프로토콜 통일 – 배타적 인프라 생태계 형성 인프라의 지정학: 새로운 전쟁터 30
  27. 스케일 전쟁: 5년간 만 배 [1] “Computing Power and the

    Governance of Artificial Intelligence”, Hadfield et al., 2024 32
  28. • GPT-3 (OpenAI, 2020) – 창발 현상의 발견: 모델이 커지면

    뭔가가 더 나온다. – 가르치지 않은 태스크를 처리하는 능력 • LaMDA (Google, 2021) – 인 컨텍스트 러닝 기반 페르소나를 줄 수 있는 모델 • Pathways (Google, 2022) – 크기를 키워가면서 어떤 크기에서 어떤 현상이 창발되는지 추적 • ChatGPT (OpenAI, 2022) – RLHF 기반의 튜닝을 통한 일반 언어 모델의 가능성 서비스 • GPT-4 (OpenAI, 2023) – µ-parameterization의 최초 거대 언어 모델 훈련 적용 • Claude Sonnet (Anthropic, 2023) – 모델 기능 모듈 발화 과정을 대규모로 첫 추적 (2024) 스케일 전쟁 33
  29. • AI accelerators 또는 “NPU" – FPGA 로 특화 서킷을

    만들거나, 정식으로 칩을 굽는 두 가지 모두 존재 – Zero-skipping, 모델 압축 및 경량화 도입 추세 – 다양한 철학으로 설계되어 있음 / 구현 난도 문제로 대부분 서빙 (인퍼런스)용 • 세대 구분: 개발이 언제 시작되었느냐에 따라 칩의 방향성이 결정 • 미래 예측 – 소프트웨어 사이클 >> 하드웨어 사이클 – 이로 인해 파생되는 일들 ✓ 예: Meta MTIA, Furiosa Warboy, Tenstorrent Grayskull 등 AI 가속기 34
  30. • 1세대 AI 가속기 (2017~) – 단순 행렬 연산 가속기에

    가까움 / 5x5 ~ 15x15 크기의 행렬 연산 처리 – 단독 사용을 고려하지 않은 일반 커널 계산 가속용 – NPU (화웨이, 2018), EdgeTPU (Google, 2017), Qualcomm AI Accelerator (Qualcomm, 2018), ANE/Neural Engine (Apple, 2020) • 2세대 AI 가속기 (2019~) – 행렬 연산 가속 ops 구현 중심 / 주로 CNN 등 구현 이미지 처리에 특화하여 인코더/디코더를 내장한 칩들 다수 존재 ✓ 예) OpenCV의 기능 구현 – 지연율 최소화를 목표로 개발: 배치 사이즈 1에 최적화 – 연산 명령을 받아 특정 태스크에 대해 단독으로 명령 수행 가능 – 국내: Furiosa Warboy, Sapeon X220,X330, DeepX, Mobilint 등 ✓ Warboy, ATOM, X330 등은 2세대와 3세대 사이에 걸쳐 있음 AI 가속기 35
  31. • 3세대 AI 가속기 (2021~) – 트랜스포머 아키텍처용 ops 구현

    및 fusion ops 구현 ✓ 언어모델의 본격적 가속을 위한 기능 지원 ✓ 고대역 메모리 사용 / 초고속 네트워크 기반 칩-투-칩 연동 ✓ 요샌 일주일에 회사가 하나씩 나옵니다… – 훈련용 칩: TPUv3~5p (2020~), GraphCore IPU (2022~), SambaNova SN20/30 (2022~), Cerabras (2022~) 등 – 인퍼런스용 칩: TPU v3~5e (2019~), GroqChip (2022), HyperAccel (2023), Furiosa Renegade (2024), Rebellions Rebel (2025) 등 • 4세대 AI 가속기 – 다양한 AI 워크로드에 맞춰 엄청나게 특화한 구조 – 모든 목표를 다 잡을 수 없음 ✓ 인퍼런스 속도, 지연율, 스케일 난도, 전성비… 이 중 두 가지 정도를 목표로 함 – 멀티모달 시장 예측, 분산 모델 요구 등에 따라 다양한 아이디어들에 기반한 테스트 칩들이 나오고 있음 ✓ 예: PIM (Processor-In-Memory) 기반 엣지 AI 가속, CXL 기반 통신으로 CPU-RAM-AI칩간 구분 없는 스케일 지원 등… ✓ 개인적인 의견: 몇가지 사례에 대해 수요가 크게 예상되는데 구현은 어떻게 할 지 잘 모르겠네요. AI 가속기 36
  32. • 시장 규모와 성장률 – 2024년: 980억 달러 – 2030년

    예상: 4,000억 달러 이상 – 연평균 성장률 30% 이상 • Nvidia의 지배적 위치 – 데이터센터 GPU 시장 점유율 90% 이상 – Blackwell 아키텍처의 혁신 – CUDA 생태계의 네트워크 효과 • 도전자들의 부상 AI 가속기 시장의 폭발적 성장 37
  33. • Nvidia의 통합 플랫폼 전략 – 하드웨어-소프트웨어 수직 통합 –

    NVLink, NVSwitch 인터커넥트 – CUDA 생태계 독점 – AI 팩토리 비전 • Blackwell Ultra (B300) – 1.8TB/s HBM3e 메모리 – FP4 정밀도 지원 – 30 PFLOPS AI 성능 Nvidia vs AMD: 플랫폼 전쟁 • AMD의 개방형 대안 전략 – ROCm 오픈소스 플랫폼 – PyTorch 네이티브 지원 – 가격 경쟁력 (30-40% 저렴) • MI400 시리즈 – 288GB HBM3e 메모리 – Universal Matrix 아키텍처 – Infinity Fabric 인터커넥트 38
  34. • 실리콘 독립을 향한 여정 – Nvidia 의존도 감소 목표

    – 비용 절감과 최적화 – 자체 워크로드 특화 • 주요 자체 칩 프로젝트 – Google TPU v5e/v5p, Ironwood : 최대 규모 배포 – AWS Trainium2/Inferentia3: 가격 대비 성능 중시 – Microsoft Maia 100: Azure 통합 최적화 – Meta MTIA v2: 추천 시스템 특화 • 성과와 한계 – 특정 워크로드에서 우수한 성능 – 범용성과 생태계에서 여전히 한계 – Nvidia CUDA의 높은 전환 비용 하이퍼스케일러의 자체 칩 전략 39
  35. • 모든 디바이스에 AI 탑재 – PC: Intel Meteor Lake,

    AMD Ryzen AI – 스마트폰: Qualcomm Snapdragon, Apple A18 – 자동차, IoT 기기로 확산 • NPU의 기술적 특징 – 전용 AI 연산 유닛 – 전력 효율성 극대화 (10배 이상) – 실시간 추론 최적화 • 2025년 "AI PC" 원년 – Windows 11의 NPU 네이티브 지원 – 로컬 LLM 실행 가능 – 프라이버시 보호 AI NPU의 급부상: 엣지 AI 혁명 40
  36. • Intel AI Boost (Core Ultra) – 최대 34 TOPS

    성능 – INT8 정밀도 최적화 – x86 생태계 통합 • AMD Ryzen AI (XDNA) – 최대 50 TOPS 성능 – 적응형 컴퓨팅 엔진 – Xilinx 기술 활용 주요 NPU 아키텍처 비교 • Qualcomm Hexagon – 최대 75 TOPS 성능 – 모바일 최적화 – 5G 통합 AI 처리 • Apple Neural Engine – 최대 38 TOPS 성능 – Core ML 긴밀 통합 – 프라이버시 중심 설계 41
  37. • Llama.cpp (Georgi Gerganov, 2023) – Whisper.cpp 로 유명 ✓

    OpenAI Whisper를 CPU로 돌리는 도구 – 맥에서 Llama를 돌릴 수 없을까? ✓ Whisper.cpp 를 원용해서 Llama를 CPU로 돌려보자! ✓ 어 되네? – 이후 수많은 구현체의 밑바탕이 됨 ✓ 오프라인에서 LLM이 돈다? Llama.cpp 기반입니다. • Ollama (2023) 및 다양한 구현체 – Llama.cpp 를 엔진으로 사용한 로컬 AI 서빙 솔루션들의 대거 등장 – Ollama: 배포의 혁신 ✓ 단일 바이너리에 모든 구현체 (서버+클라이언트)를 다 집어넣음 – NVIDIA: Chat with RTX 공개 (2024년 3월) • 문젯점 – 기반이 되는 Llama.cpp 의 구현 상태: 돌아만 가면 되…나? ✓ MAME emulator 같은 구조 – 굉장히 적은 외부 기여 Llama.cpp / ollama 42
  38. • Llama.cpp (는 설명했으니 생략) • vLLM (2023. 6) –

    메모리 절약을 위한 PagedAttention 알고리즘을 구현한 오픈소스 / Llama 지원과 때맞춰 탄력 – ROCm 지원 시작 (2023. 12) • TensorRT-LLM (NVIDIA, 2023. 10) – 거대언어모델의 고속 인퍼런스에 촛점을 두고 TensorRT를 최적화한 구현체 – Triton Inference Server 와 결합한 자동 양자화 (INT4, INT8 weight 및 FP16 activation과 통합) – 간단하고 빠른 인퍼런스 인터페이스 제공 • 운영체제 벤더들의 인퍼런스 가속 제공 – Microsoft Windows 11 – Google Android / Google Chrome Browser – Apple CoreML 로컬 인퍼런스 소프트웨어 43
  39. • 역사 – 2023년 10월 AI PC 컨셉 공개 –

    2024년 1월 코파일럿 키보드 버튼 및 AI PC 공식화 – 2024년 3월 스펙 고정 – 2024년 5월 첫 공식 인증 PC 공개 (Microsoft) ✓ 퀄컴 스냅드래곤 엘리트 기반의 6종 PC – 2025년 3월 MCP 서버 기능을 Windows 에 내장 계획 발표 • 기능 – 로컬 코파일럿 기능 수행 – NPU, CPU 및 GPU를 워크로드에 따라 섞어 제공 • 요구사항 – 45 TOPS 이상의 NPU – 16GB (또는 32GB) 이상의 메모리 • 왜? – 브랜드 전략 하위에 모든 AI 서비스를 구분되지 않게 묶음 – 양두구육 전략 Microsoft AI PC 44
  40. • 브라우저+AI – Vivaldi Browser 를 필두로 다양한 브라우저들이 로컬

    AI를 도입 – 낮은 구현 난도: 모두 Ollama wrapper – 적절한 도입 유인 동기: 프라이버시를 지켜주는 AI 도입 • 구글 크롬 브라우저의 도입 – Gemini Nano 내장: Google I/O 2024 공개 (2024년 5월) – window.ai 로 자바스크립트에서 바로 접근 – 워크로드 종류에 따라 하이브리드 AI 구성 제공 – AI 용 API 를 브라우저에 정식 통합 및 제공 시작 (2025년 6월) • WebGPU + WebAssembly – 브라우저 레벨에서의 가속기 가상화 – LLM뿐 아니라 일반 AI 등도 브라우저에서 쉽게 돌릴 수 있도록 함 Chrome built-in LLM API [1] https://developer.chrome.com/docs/ai/built-in [2] https://developer.chrome.com/docs/ai const chatSession = await window.ai.createTextSession() 45
  41. • AI Edge SDK for Gemini Nano – Gemini Nano를

    안드로이드에 내장 – 개발자들이 SDK를 이용하여 로컬 AI의 기능을 불러 사용하거나, 직접 쿼리할 수 있게 함 – 구글, 삼성 지원 • 문제: NPU 벤더들의 미비한 지원 – 미비하거나 부재한 안드로이드 NNAPI 가속 – 퀄컴의 NPU SDK (Neural Processing SDK, AI Engine Direct SDK): 별도 운영 및 개발 중 – 화웨이 HiAI DDK: Kirin 칩을 사용하는 경우에 한해 자체 스펙으로 제공중 – 삼성 NPU SDK (ONE): 멀티플랫폼 대상 자체 SDK 지원 Android 14 https://developer.android.com/ai/aicore 46
  42. • “Apple Intelligence” – 거의 모든 AI 기능을 온 디바이스로

    처리 ✓ 기능이 좀 부족해도 온 디바이스를 기본으로 함 ✓ 3B 크기의 LLM + LoRA 아답터 기반 – 고급 기능이 필요한 경우 자체 클라우드 구현체 ✓ “Apple Confidential Computing” ✓ 애플 실리콘 기반의 전용 서버 이용 ✓ 서버 노드를 아이폰처럼 다루는 접근 • 오픈 모델 사용 및 파인튜닝 제공 ✓ 외부 개발: Mistral, Llama, Falcon, Qwen ✓ 애플 모델: OpenELM ✓ 멀티모달 연동: Whisper, CLIP • iOS 26 (2025. 9~) – 아예 모델 서빙용 통합 API 를 제공 Apple Intelligence https://machinelearning.apple.com/research/introducing-apple-foundation-models 47
  43. • TOPS (Trillion Operations Per Second) – AI 하드웨어의 연산

    능력을 측정하는 데 흔히 사용되는 지표 – 1초 동안 100% 활용률로 AI 가속기가 처리할 수 있는 연산 수 – 비교: NVIDIA 4090: 191 TFLOPs, 1321 TOPS (TensorCore) • 마이크로소프트 AI PC 인증 – 40 TOPS 를 기준으로 시작 – 이후 45 TOPS로 상향 ✓ 40 TOPS에 맞춰 준비하던 개발사들: 로드맵 변경 • Intel (Meteor Lake, 10 TOPS -> Lunar Lake, 45+ TOPS) • AMD (Hawk Point, 16 TOPS -> Strix Point, 48 TOPS)… ✓ 공식 AI PC 공개: 전부 다 Qualcomm Snapdragon • 45 TOPS는 충분한가? – NVIDIA: 100~1300 TOPS가 필요합니다! – Apple: 17 TOPS (Apple A16, 2023), 38 TOPS (Apple M4, 2024) Microsoft AI PC의 기준: 45 TOPS [1] https://www.qualcomm.com/news/onq/2024/04/a-guide-to-ai-tops-and-npu-performance-metrics [2] https://www.embedded.com/tops-vs-real-world-performance-benchmarking-performance-for-ai-accelerators/ 48
  44. • 소버린 AI의 정의와 중요성 – 자국의 AI 모델, 인프라,

    데이터 통제 – 경제 안보와 국가 안보의 교차점 – 기술 주권 확보의 핵심 요소 • 글로벌 AI 경쟁의 새로운 양상 – 협력에서 경쟁으로 전환 – 기술 블록화 가속 – AI 기술의 무기화 우려 • 각국의 전략적 대응 새로운 국가 안보 아젠다: 소버린 AI 50
  45. • 미국 – CHIPS Act 520억 달러 – GENIUS Act

    (2025년 7월) ✓ AI 안전 연구소 설립 ✓ 동맹국과의 기술 동맹 ✓ 중국 견제 중심 • 중국 – 2030년 AI 선도국 목표 / 7개년 계획 단계적 실행 – 1조 위안 투자 계획 – 자립형 AI 생태계 구축 – 국가 주도 개발 주요국 AI 주권 전략 비교 • EU – AI Act 규제 프레임워크 – 디지털 주권 강조 – 1,500억 유로 투자 – 윤리적 AI 선도 • 영국 – 프론티어 AI 태스크포스 – 100억 파운드 투자 – AI 안전 정상회의 주도 – 규제 혁신 추구 51
  46. • 일본 고유의 접근법 – 제조업 강점과 AI 결합 –

    Society 5.0 비전 실현 – 로봇공학-AI 융합 중점 • 주요 이니셔티브 – SB Institutions 런칭 (2023년 8월): “일본인에 의한, 일본인을 위한, 일본에서 만든” 언어 모델 – 문샷(Moonshot) AI 프로젝트 – RIKEN AI 연구소 확대 ✓ Fugaku 를 언어 모델용으로 전용 / Tsubame 4.0 (2024년 4월) – 후지츠, NEC 등 대기업 참여 • 도전과 기회 – 인재 부족 문제 해결 노력 – 스타트업 생태계 활성화 – 아시아 AI 허브 목표 일본의 AI 전략: 제조업 AI 융합 52
  47. • 비전과 목표 – 2027년 글로벌 AI 3대 강국 ✓

    미국 중국 다음으로 한국 – AI 일상화 실현 – 디지털 전환 가속화 • 100조 원 투자 계획 – 정부 투자 20조 원 + 민간 투자 80조 원 – 인프라, R&D, 인재 양성 대한민국의 국가 AI 전략 • 핵심 추진 과제 – AI 반도체 경쟁력 강화 – 거대 언어모델 개발 – AI 데이터센터 구축 – 규제 혁신과 샌드박스 • 한국형 AI 생태계 – 대기업-스타트업 협력 – K-AI 얼라이언스 – 공공 데이터 개방 53
  48. • 기술적 도전과제 – 자체 기술 개발의 높은 비용 –

    글로벌 표준과의 호환성 – 인재 확보 경쟁 • 경제적 도전과제 – 투자 대비 수익성 불확실 – 중복 투자의 비효율성 – 규모의 경제 달성 어려움 • 미래 시나리오 – 지역별 AI 블록 형성 – 상호운용성 표준 필요 – 새로운 국제 협력 모델 모색 소버린 AI의 도전과제와 미래 54
  49. • 2025년 AI 스타트업 생태계 – 전문 분야 특화 전략

    – 빅테크와의 차별화 – 민첩성과 혁신성 강조 • 성공 사례와 전략 – 수직 통합형 접근 – 오픈소스 커뮤니티 활용 – B2B 엔터프라이즈 집중 • 투자 환경의 변화 스타트업의 도전: 틈새에서 주류로 56
  50. • 급속한 성장 – 2023년 창업 ✓ 15개월 만에 60억

    달러 가치 ✓ 2025년 프랑스의 AI 아젠다에 힘을 줌 – Mixtral 8x7B 성공으로 유명해짐 – LLM에서 멀티모달, 음성 합성 등으로 계속 진화 • 기술적 차별화 – 효율적인 MoE 아키텍처 – 다국어 특화 – 오픈 웨이트 전략 예: 미스트랄 AI: 유럽의 도전 • 사업 전략 – 유럽 기업 고객 중심 – 데이터 주권 보장 ✓ 중동, 인도 시장을 대상으로 Cerabras 와 파트너십 및 진출 – 온프레미스 배포 지원 • 도전과 기회 – 미국 빅테크와의 경쟁 – 유럽 규제 환경 활용 – 글로벌 확장 계획 57
  51. • Backend.AI 플랫폼 – 오픈소스 및 엔터프라이즈 AI 인프라스트럭처 운영

    체제 – 멀티클라우드 AI 인프라 상에서의 자원 최적화 및 스케줄링 – 엔터프라이즈 보안 – 오픈소스 및 고성능 컴퓨팅 생태계 기여 ✓ Python, numpy, IMSL, BSD… • 세계 시장 – 국내 주요 기업들을 고객으로 확보 및 확장 – EU 및 남미 시장 사용자 및 고객층 – 일본, 동남아 시장 확대 등 • 도전과 기회 – 네오클라우드 업체들의 기반 소프트웨어 플랫폼 보급 – 이기종 하드웨어 통합 관리 – AI 가속기 인프라 최적화 및 MLOps 완전 자동화 예: 래블업: AI 인프라스트럭처 스케일러 58
  52. • 기존 강자들 – OpenAI-Microsoft 동맹 – Google DeepMind 통합

    – Meta의 오픈소스 전략 • 신흥 강자들 – Anthropic의 급부상 ✓ Claude API의 사용량: 2024년 4~6월간 20배 이상 증가 – xAI의 공격적 진출 ✓ Grok 4: AI 컴패니언 계획 (2025년 7월) – Apple의 은밀한 전진 ✓ 모델 표준 플랫폼 API 를 차기 OS에 내장하고 테스트 ✓ 약 20여종의 AI 어플리케이션을 이미 통합함 ✓ ACDC 계획 (2024~): 애플 실리콘 기반의 컨피덴셜 컴퓨팅 클라우드 빅테크 권력 구도의 재편 • 경쟁 양상의 변화 – 협력과 경쟁의 이중성 ✓ OpenAI – Microsoft (샘 알트만/무스타파 슐레이만) – 인재 확보 전쟁 ✓ Llama 4 발표 후 Meta의 초지능 랩 인력 스카웃 – 컴퓨팅 자원 확보 경쟁 ✓ “백만대의 백 배가 필요하다” (일론 머스크, 2025년 7월) ✓ (… 어디 쓰시려고요?) • 생태계 전략 – 개발자 커뮤니티 확보 – 엔터프라이즈 시장 공략 – 플랫폼 종속성 강화 59
  53. • 표면적 협력 – AI 안전 연구 공동 투자 –

    레드팀 테스트 공유 – 안전 표준 개발 협력 • 이면의 경쟁 – 안전을 명분으로 한 규제 장벽 – 오픈소스 견제 시도 – 기술 표준 주도권 다툼 • 진정한 협력의 필요성 – 실존적 위험 대응 – 글로벌 거버넌스 구축 – 투명성과 책임성 확보 AI 안전 협력의 역설 60
  54. • 2025년 상반기 주요 출시 – Claude 4 (Anthropic): 안전성과

    유용성의 균형 – Gemini 2.5 Pro (Google): 멀티모달 최강자 – Llama 4 (Meta): 오픈소스의 새 기준 – GPT-5 (OpenAI): 연기된 혁명 • 성능 향상의 새로운 차원 – 단순 벤치마크를 넘어선 실용성 – 특정 도메인 전문화 – 인간-AI 협업 최적화 새로운 세대의 등장: 주요 모델 출시 62
  55. • 코딩 및 개발 – Claude 4: 복잡한 리팩토링에 강함

    – DeepSeek-Coder: 비용 효율성 – Codex 3.0: IDE 통합 • 과학적 추론 – OpenAI o3/o4: 수학/물리 특화 – Gemini 2.5 Pro: 과학 문헌 이해 – Grok-4: 실시간 데이터 분석 분야별 리더십 경쟁 • 창의적 작업 – Midjourney v7: 이미지 생성 – Sora 2.0, VEO 3: 비디오 제작 – Claude Opus 4: 장문 콘텐츠 • 다국어 능력 – Llama 4: 100개 언어 지원 – Yi-Large: 아시아 언어 최적화 – Aya-101: 저자원 언어 63
  56. • 텍스트를 넘어선 AI – 이미지, 비디오, 오디오 통합 이해

    – 실시간 멀티모달 대화 – 3D 공간 인식 능력 • 주요 멀티모달 모델 – Gemini 2.5: 가장 포괄적인 멀티모달 (Google) – GPT-4V 후속: 비전-언어 통합 (OpenAI) – Ferret-UI (2024.4) - ILuvUI (2025. 7) : UI/UX 이해 특화 (Apple) • 응용 분야의 확장 – 의료 영상 분석: MedGemma (Google), MAI-DxO (Microsoft) – 자율주행 시각 시스템 – 증강현실 AI 어시스턴트 멀티모달의 주류화 64
  57. • 오픈소스의 약진 – 성능 격차 1.70%로 축소 – 200B

    이상의 모델들 ✓ Llama 4: 400B ✓ DeepSeek-R1 0528: 671B ✓ Kimi K2: 1T – 회사 / 커뮤니티 주도 혁신의 순환 구조 • 오픈소스의 장점 – 투명성과 검증 가능성 – 커스터마이징 자유도 – 벤더 종속성 없음 오픈소스 vs 클로즈드소스 현황 • 클로즈드소스의 방어 – 최신 기술 우선 적용 – 통합 서비스 제공 – 기업 지원 체계 • 하이브리드 전략 – 부분 공개 모델 – API 우선 접근 – 차등적 오픈소스화 65
  58. • Gemini 2.5 (2025년 6월) – 구글의 차세대 언어 모델

    – 3가지 크기로 개발 ✓ Nano, Pro, Ultra ✓ 차기 안드로이드 모바일에 도입 / Pixel 8 • Claude v4 (2025년 4월) – Anthropic 의 최신 모델 – 코딩 능력의 대폭적인 개선 – 하이브리드 추론 모델 ✓ 문제가 복잡한 경우 extended thinking 모드를 자동 사용 사전 훈련 클라우드 모델 (2025년) • Grok 4 (2025년 7월) – xAI의 서비스 모델 – 130K 컨텍스트 윈도우 – 가드레일을 유연하게 가져가서 다양한 종류의 발화를 지원함 • Mistral (2023년 10월~) – Large 2 ✓ 123B 파라미터 및 128K 컨텍스트 윈도우 ✓ 코드, 수학, 추론에 최적화 – Medium 3 (2025년 5월) ✓ 모델 크기를 줄이면서도 성능 유지에 집중 – Small 3.2 (2025년 6월) ✓ 24B 파라미터 및 멀티 모달 https://blog.google/technology/ai/google-palm-2-ai-large-language-model/ 66
  59. • DBRX (2024년 3월~) – 데이터브릭스의 오픈 모델 ✓ MosaicML

    모델의 후속 모델 – 132B 크기 / MoE 기반 – 몇몇 제한 존재 ✓ “다른 모델 훈련용으로 쓰지 마라” 같은… – GPT 3.5를 능가하는 성능 • Nemotron 4-340B (2024년 6월) – NVIDIA의 오픈 모델 – 340B: 공개 오픈 모델들 중 가장 큰 규모 – 상업적 용도 무제한 허용 ✓ (기존에 공개한 작은 크기의 모델들도 있음) – 합성데이터 생성용으로 권장 • DeepSeek-R1 (2025년 1월) – 최고 성능의 오픈 사고 모델 (Reasoning model) – 인퍼런스 시간을 사용해서 성능 고도화 – 라이선스 제약 없음. MoE 사용 – 최신 버전: 2025년 5월 사전 훈련 오픈 언어 모델 • Mistral (2023년 11월~) – 10B 미만의 크기 중 가장 다양한 용도로 동작 ✓ 다른 모델의 교정 모델로 사용할 수 있음 ✓ “Model distillation” – 완전 오픈 모델 (MIT 호환) – 작은 크기를 이용한 응용 케이스 ✓ Mixtral 8x7B: 실질적으로 적용가능한 크기의 MoE (Mixture of Experts), 12B만큼의 메모리로 동작 – Mistral Pro/Large 공개 (2024년 2월) ✓ 더 큰 모델, GPT-4 필적 성능 • Gemma (2024년 2월~) – Google 의 공개 모델 ✓ Gemini와 동일 기술 사용 – Llama2 대비 제약이 굉장히 적은 라이선스 ✓ Gemma License: 사실상 제약 없음 – 상대적으로 작은 모델: 2B, 7B 모델 – 멀티모달 버전 공개: PaliGamma (2024년 5월) – Gemma 2: 27B 크기 (2024년 6월) – Gemma 3: 가장 뛰어난 멀티링구얼 성능 (2025년 3월) 67
  60. • 성능을 넘어선 고려사항 – 비용 대비 효율성 – 추론

    속도와 지연시간 – 프라이버시와 보안 • 용도별 최적 모델 – 실시간 대화: 경량 모델 선호 – 복잡한 분석: 추론 모델 활용 – 창의적 작업: 특화 모델 선택 • 미래 전망 – 모델의 모듈화와 조합 – 작업별 동적 모델 선택 – 개인화된 AI 어시스턴트 모델 선택의 새로운 기준 68
  61. • 2025년 봄 – 대한민국의 GPU 1만장 확보 전략 ✓

    이후 3만장으로 증가 – GTC 2025에서의 Nvidia 발표 ✓ 전 세대 (Hopper 아키텍처) 의 모든 주문량보다 2025년의 Blackwell 주문량이 더 많다 ✓ 더 사면 더 싸다! ✓ 왜? • 스케일업과 스케일 아웃 – UALink, NVLink Switch… – 모든 인터널 커넥트를 밖으로 뜯어내고 있음 – 512포트 스위치 + 포토닉스 인터포저 등… 1만장과 300만장 70
  62. • 일반 HTTP 요청 (Microservice) – 빠름, 균질, 저렴 마이크로서비스와

    LLM 서빙의 차이 • LLM 요청 – 느림, 비균질, 고비용 Microservice LB LLM-Aware LB [1] LLM-d. JAX/OpenXLA DevLab (2025) 71
  63. • KVCache를 효율적으로 관리해보자! – vLLM (PagedAttention) [SOSP'23] ✓ OS의

    memory paging 설계를 빌려와 block 단위로 KV cache 관리 ✓ Reshape + block write, block read + attention 커널을 fusing • Prefill 단계와 Decode 단계를 아예 다른 GPU에서 나눠서 실행해보자! – DistServe [OSDI'24] ✓ Decode GPU가 Prefill GPU로부터 KV cache를 "pull"하는 방식의 파이프라이닝 구현 ✓ 처음부터 사용자 요청의 토큰 분포에 따라 KV cache를 이미 갖고 있는 GPU로 "Smart" routing – NVIDIA Dynamo [GTC'25] ✓ 계층적 KV cache 오프로딩 적용 (on-device HBM, host DRAM, local SSD, remote storage) ✓ Smart routing을 Radix Tree 기반으로 개선 ✓ Planner를 통해서 Prefill/Decode GPU 역할을 사용자 요청의 토큰 사용량 분포에 따라 동적으로 조절 ✓ NIXL (NVIDIA Inference Transfer Library): GPUDirect RDMA 등의 고속 전송 기술 통합 연구 흐름 72
  64. • 코딩 도구에서 팀원으로 – 단순 자동완성을 넘어선 진화 –

    전체 기능 구현 가능 – 코드 리뷰와 디버깅 자동화 • 주요 AI 코딩 에이전트 – GitHub Copilot Workspace – Devin (Cognition Labs) – Cursor Agent Mode – Replit AI Agent – …매일 새로 나오고 있음 • 개발 프로세스의 재정의 자율적 AI 개발자의 등장 Studying 75
  65. • 구글과 마이크로소프트 – Cloud Next: IDE 는 계속 존재할까?

    – 봄에 30% 이상의 코드 커버리지, 연말까지 50% 이상을 목표로 함 – 일단 코드 개발의 반 이상은 연말 안에 대체된다고 못을 박았음 • 코딩: 생성AI의 다음 시장 – 챗봇 서비스의 약점 ✓ 유저수는 많은데 돈이 잘 안됨 ✓ 원가 절감이 어려운 사용 패턴이 늘어남 – 캐시에 의존하지 않는 비용 절감이 가장 위력을 발휘하기 좋은 분야 ✓ 배치 걸기 좋게 실시간성이 덜 요구되며 ✓ 토큰 소모가 엄청나서 원가만 잘 절감하면 유저를 못 나가게 하기도 좋고 ✓ 월 20달러 대신 월 1000달러를 낼 수 있는 시장 코딩 에이전트와 비용 감소 압력 76
  66. • GitHub Copilot Workspace – PR 자동 생성 – 이슈

    해결 자동화 – 팀 협업 최적화 – Microsoft 생태계 통합 • Devin – 완전 자율 개발 – 브라우저 제어 능력 – 테스트 자동 실행 – 배포까지 처리 주요 코딩 AI 플랫폼 비교 • Cursor – IDE 깊은 통합 – 컨텍스트 인식 편집 – 멀티파일 리팩토링 – 로컬 모델 지원 • Replit AI – 클라우드 네이티브 – 실시간 협업 – 즉시 배포 가능 – 교육 친화적 77
  67. • TUI 기반 도구인 이유 – 편의성 – 심리적 이유?

    • Claude Code (2025. 4) – 기반 모델의 압도적인 성능을 바탕으로 급격한 성장 – 토큰 생성량 20배 증가 • Gemini CLI (2025. 7) – 저렴한 API 가격을 무기로 빠르게 성장중 • OpenAI 의 Windsurf 인수와 실패, Claude Code 개발진의 이직 및 2주만의 환향 – 연말까지 열린 윈도우, 연말까지만 열려 있을 윈도우 주요 TUI 기반 코딩 AI 플랫폼 비교 78
  68. • 벤치마크 성능 – HumanEval: 90% 이상 통과 – 복잡한

    알고리즘 구현 가능 – 다양한 언어와 프레임워크 지원 • 실제 현장의 도전과제 – 숙련 개발자의 일부 생산성 저하 보고 – AI 생성 코드 검증 시간 증가 ✓ "이제 병목은 머지 큐에서 발생합니다.” – 과도한 의존으로 인한 기술 퇴화 • 균형점 찾기 – AI는 도구 / 적절한 활용 가이드라인 필요 – 지속적인 학습과 성장 중요 생산성 역설: 기대와 현실 • 개발 분야의 기대 수명 – 6개월? – 1년? – 2년? • 개발의 정의는 어떻게 바뀔것인가? – 처음엔 진공관을 갈아끼웠고 – 한때는 천공카드에 구멍을 뚫었고 – 어셈블리와 라인 바이 라인 코딩을 거쳐 – 커서로 원하는 곳을 변경할 수 있는 에디터와 고급 언어 – 버전 관리 시스템, 자동 완성… 79
  69. • 도입률과 활용도 – Fortune 500 중 80% 도입 –

    개발자의 40% 일상 사용 – 코드의 30% AI 지원 작성 • 주요 활용 영역 – 보일러플레이트 생성 – 단위 테스트 작성 – 문서화 자동화 – 레거시 코드 이해 기업 도입 현황과 전략 • 도입 전략 – 단계적 확대 접근 – 파일럿 프로젝트 우선 – 교육과 가이드라인 – 성과 측정 체계 • ROI 고려사항 – 라이선스 비용 – 교육 투자 – 보안 리스크 관리 – 장기적 효과 평가 80
  70. • 기술적 발전 방향 – 더 긴 컨텍스트 이해 (100만

    토큰+) – 프로젝트 전체 수준 리팩토링 – 아키텍처 설계 제안 – 멀티 에이전트 기능의 자체 내장 • 새로운 개발 패러다임 – AI 우선 개발 방법론 – 인간-AI 페어 프로그래밍 – 코드 생성에서 시스템 설계로 • 개발자 역할의 진화 – 코드 작성자에서 AI 조율자로? – 비즈니스 로직과 창의성 집중 – AI 출력물의 품질 관리자 코딩 AI의 미래: 2025년 하반기 전망 81
  71. • 기술적 패러다임 전환 – 테스트 시간 컴퓨팅의 주류화 –

    사고 모델의 보편화 – 효율성이 규모를 이기는 시대 • 지정학적 재편 – AI 주권 경쟁 심화 – 기술 블록화 가속 – 새로운 국제 질서 형성 • 산업 구조의 변화 – AI 네이티브 기업의 부상 – 전통 산업의 AI 전환 – 새로운 일자리와 역할 창출 2025년 상반기 AI 생태계의 핵심 변화 83
  72. • Google Cloud Next 25 – 2025년 4월 – AI

    / Cloud GDE 초청으로 참석 – 오즈의 마법사… 이야기 84
  73. • Doing is Believing – 해 보는 것이 믿는 것

    – 올해 계속 올핸즈를 통해 이야기하는 내용들의 실질적 동기화 – 대표 머릿속과 당신의 머릿속이 같아야 합니다 여러분 • Docklink, ClusterLoom, Decomplex… – 두 달 간격으로 세 코딩 프로젝트 진행 ✓ Docker replacement 프로젝트, 베어 메탈 클러스터 매니지먼트 도구, 세일즈 파이프라인/CRM 도구 ✓ 세 개발의 경험이 모두 달랐음 – 변화의 방향 ✓ 코파일럿/co-authoring -> 코딩 IDE 기반 -> 코딩 에이전트 일임 순으로 바뀜 ✓ 갈수록 코딩이 줄어듦: Decomplex 의 경우 사람 코딩을 두 줄 했음 – 그럼 난 무엇을 할 수 하는가? 질문이 잘못됨 ✓ 난 무엇을 해야 하는가 가 이 시점에 스스로에게 던져야 하는 질문임 래블업 Idea|up 해커톤 85
  74. • 수요일에 진행 – 프리 해커톤 미팅 : 미리 가이드

    안내하고 기획서 작성하는 법에 대한 내용 ✓ 이틀동안 각 10분 – 해커톤: 오전 10시에 해커톤을 시작해서 점심시간 전에 끝 ✓ 오프닝 15분, 준비 15분, 코딩 시간 1시간, 데모 및 시상식 30분 / 개인별 해커톤 ✓ 한 시간동안 Claude Code에게 지시하는 것으로 코딩 • 인기상 – 우승: 점심메뉴 추천 자동화 및 게임화와 사내 리뷰시스템을 구글 리뷰와 결합한 AI & 플랫폼 컨설팅 팀 멤버 – 2등: 회사 개요 및 문서 기반으로 현재 필요한 직책 추천 및 잡 디스크립션 자동 생성 서비스를 만든 CFO – 3등: 필드부터 개발까지 이어지는 이슈트래커를 만드신 연구 팀 멤버 – 번외: Chief Revenue Officer 님은 CRM 드래프트를 통째로 하나 짰음 • 이후 – 모든 구성원이 AI 기반 증강 코딩을 도입 하고 있음 – 숙원사업들이 전부 자동화되는 중 • 상세 내용은 https://www.backend.ai/ko/blog/2025-07-1st-lablup-ai-hackathon – 궁금하시면 참고해보시길 래블업 Idea|up 해커톤 - 결과 86
  75. 88

  76. AI Enterprise AI Cloud AI Open Source AI MLOps 감사합니다

    [email protected] https://www.facebook.com/lablupInc Lablup Inc. Backend.AI Backend.AI GitHub Backend.AI Cloud https://www.lablup.com https://www.backend.ai https://github.com/lablup/backend.ai https://cloud.backend.ai 89