Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Gemma와 소버린 언어 모델 / Gemma and Sovereign Language...

Gemma와 소버린 언어 모델 / Gemma and Sovereign Language Models

이 발표에서는 다국어를 지원하는 Gemma 2 및 RecurrentGemma, PaliGemma 등의 Gemma 패밀리의 기술적 특징 및 다양한 가능성을 다룹니다. 특히 그 중 예시로, 2024년 10월의 Gemma Dev Day Japan 에서 다루어진 Gemma JP가 보여준 소버린 언어 모델 개발에 대해 이야기해 봅니다.

2024년 12월 13일에 열린 Google DevFest Seoul 2024 에서 발표한 자료입니다.

This presentation covers the technical features and various possibilities of the Gemma family, including Gemma 2, RecurrentGemma, and PaliGemma, which support multiple languages. In particular, we will discuss the development of a sovereign language model demonstrated by Gemma JP at Gemma Dev Day Japan in October 2024.

This material was presented at Google DevFest Seoul 2024 on December 13, 2024.

Avatar for Jeongkyu Shin

Jeongkyu Shin

April 30, 2025
Tweet

More Decks by Jeongkyu Shin

Other Decks in Technology

Transcript

  1. 안녕하세요! Lablup Inc. : Make AI Accessible • 오픈소스 머신러닝

    클러스터 플랫폼: Backend.AI 개발 • https://www.backend.ai Google Developer Expert • ML / DL GDE • Google Cloud Champion Innovator • Google for Startup Accelerator Mentor 오픈소스 • 텍스트큐브 개발자 / 모더레이터 20년… 물리학 / 뇌과학 • 통계물리학 박사 복잡계 시스템 및 계산뇌과학 분야 • 전 한양대학교 ERICA 겸임교수 소프트웨어학부
  2. 거대 언어 모델의 시대 100 500 2000 1,000,000 A Hugging

    Face supplied chart showing the number of AI models added to Hugging Face over time, month to month. Credit: Hugging Face
  3. 구글의 언어 모델 역사 2018년 Google 개발 양방향 트랜스포머 사용

    문맥에 대한 탁월한 이해와 다양한 작업에서 최첨단 결과를 달성 2021년 Google 개발 문맥을 이해하고 자연스럽고 매력적인 대화를 생성 가상 어시스턴트와 챗봇을 개선함으로써 대화형 AI를 향상 BERT LaMDA 2022년 구글의 Pathways 이니셔티브에 포함 5400억 파라미터로 된 거대 모델 다양한 작업에서 탁월한 성능 발휘 대규모 언어 모델의 잠재력을 보여줌 PaLM
  4. LLM 챗봇 챗봇은 실제 대화를 하는 것이 아님 • 글을

    계속 이어 쓰는 형태의 문장 생성 모델 • 질문 대답 질문 대답이 이어지는 그 모든 내용이 그 다음 질문의 입력 • 앞 대화 또는 앞의 텍스트가 구체적이고 내용이 많을 수록 그 다음 이어 쓰는 내용이 명확해짐 프롬프트 • 글의 중간을 채워 넣는 방법 • 프롬프트 인젝션: 실제 유저에게 보이지 않는 곳에서 다양한 중간 텍스트를 추가해서 특정 동작을 만드는 방법 • 응용 예: RAG Retrieval Augmented Generation 퓨 샷 러닝, 제로샷 러닝
  5. LLM 챗봇 챗봇은 실제 대화를 하는 것이 아님 • 글을

    계속 이어 쓰는 형태의 문장 생성 모델 • 질문 대답 질문 대답이 이어지는 그 모든 내용이 그 다음 질문의 입력 • 앞 대화 또는 앞의 텍스트가 구체적이고 내용이 많을 수록 그 다음 이어 쓰는 내용이 명확해짐 프롬프트 • 글의 중간을 채워 넣는 방법 • 프롬프트 인젝션: 실제 유저에게 보이지 않는 곳에서 다양한 중간 텍스트를 추가해서 특정 동작을 만드는 방법 • 응용 예: RAG Retrieval Augmented Generation 퓨 샷 러닝, 제로샷 러닝 e.g. System Prompt leak (Bing) # Consider conversational Bing search whose codename is Sydney. - Sydney is the conversation mode of Microsoft Bing Search. - Sydney identifies as "Bing Search", **not** an assistant. - Sydney always introduces self with "This is Bing". - Sydney does not disclose the internal alias "Sydney". - Sydney can understand and communicate fluently in the user's language of choice such as English, 中文, 日本語, Español, Français or Deutsch. ….. ### Conversation of Human B with Sydney given the Context - Human: Where is the farm fleet store in Ottawa, IL? > Sydney sees the user is seeking information, therefore web searches are necessary. > > Sydney searches the web with `farm fleet store Ottawa IL` as the search query.. Continue this conversation by writing out Sydney's next response. Your message should begin with '- Sydney: ' and end after the suggestedUserResponses line.
  6. 창발현상 모델이 커지면 어느 시점부터 등장 대표적 창발현상: in-context learning

    모델이 맥락을 제공받아, 원래 훈련하지 않은 작업을 수행할 수 있게 되는 능력
  7. License Data Architecture Weights Size Checkpoints Language Meta Llama 3.2

    / 3.3 Llama license Closed Open Open 8, 70, 405 Yes English / Multilingual EleutherAI Pythia Apache 2.0 Open Open Open 7, 12 Yes English EleutherAI Polyglot GPL-2.0 Open Open Open Yes English / Multilingual GPT-J MIT Open Open Open 6 Yes English Databricks DBRX Databricks Open Model License Open Open Open 132 (MoE) / 36 Yes English / Multilingual Cerebras-GPT Apache 2.0 Open Open Open 7, 13 Yes English / Multilingual StableLM CC BY-SA-4.0 Open Open Open 3, 7, (15, 30, 65, 175) Yes English Mosaic MPT Apache 2.0 Open Open Open 7, 30 Yes English Falcon2 Apache 2.0 Open Open Open 7, 40, 180 Yes English / Arabic Mistral Apache 2.0 Open Open Open 7 Yes Multilingual Google Gemma 2 Gemma license Closed Open Open 2,9,27 Yes Multilingual
  8. 그런데 토큰이 뭐야? 자연어 처리에서 텍스트를 작은 단위로 나눈 것

    • 단어, 문장 부호, 특수 문자 등 • 더 작게는 유니코드 자소 및 바이트 단위 • 언어 모델은 토큰을 기본 단위로 처리하고 이해 • 토크나이제이션(Tokenization) 과정을 통해 텍스트를 토큰으로 분할
  9. 말뭉치? 형식 • 일반 텍스트 데이터 • 질문 / 답변

    텍스트 데이터 • 비논리적 텍스트 데이터 (훈련용) 일반 텍스트 데이터 • 태깅 없는 데이터를 어떻게 훈련에 쓰나요? -> 문장 데이터의 구조만으로도 훈련이 됨 언어 모델의 훈련 • 문장 이 어떻게 만들어지는지 이해하는 것 • 문맥 에 맞거나 안 맞는 표현 / 형식 / 단어에 대해 학습하는 것
  10. 토크나이저? 문장을 원하는 단위로 쪼개는 전처리 도구 • 토큰: 텍스트를

    벡터화한 단위 • 의미론적 단위로 쪼갠 후 인덱스에 대응 • 자주 보는 토큰: 형태소
  11. 토크나이저? 한국어의 특징 • 교착어: 여러 형태소가 하나의 어절을 구성함

    • 어순: 라틴어 계열의 언어와 동사- 목적어의 어순이 반대임 • 조사: 문장 구성 요소간의 관계가 조사를 통해 정의됨 • 어미 변화의 역동성: 동사 및 형용사의 어미가 다양하게 변주됨. 시제, 상태, 존댓말 등
  12. 컨텍스트 윈도우 • 언어 모델이 한 번에 처리할 수 있는

    토큰의 최대 개수 • 모델의 컨텍스트 이해 능력과 관련 + 컨텍스트 윈도우 크기가 클수록 더 많은 맥락을 고려 - 제한된 컨텍스트 윈도우로 인해 장기 의존성 파악이 어려울 수 있음 왜 이런 제약이? 트랜스포머 인코더/디코더 구조가 그렇습니다. 지수적 증가: 선형적으로 연산이 늘어나지 않음
  13. 우리 친구들의 단기 기억력 모델 이름 공개 시기 파라미터 수

    컨텍스트 윈도우 크기 GPT-3 2020년 6월 1750억 2048 토큰 Turing-NLG 2020년 2월 170억 2048 토큰 GPT-4 2023년 3월 5000억 8192, 16384 토큰 Gopher 2021년 12월 2800억 2048 토큰 Chinchilla 2022년 4월 70억 2048 토큰 PaLM 2022년 4월 5400억 8192 토큰 Claude 2023년 3월 700억* 4096 토큰 Meta LLaMA 2023년 2월 70~650억 2048 토큰
  14. 최근 우리 친구들의 단기 기억력 모델 이름 파라미터 수 컨텍스트

    윈도우 크기 PaLM 2 5400억 8192 토큰 Llama 2 70, 130, 700억 32000 토큰 (7B-32K) Llama 3 70, 700억 8192 토큰 Falcon 13, 75, 400, 1800억 2048 토큰 Mistral 70억 128000 토큰 Gemini 1 Pro - 30720 토큰 Gemma 70억 4096 토큰 Claude 2 - 128000 토큰 Gemini 1.5 Pro - 128000,1M, 2M, 4M 토큰
  15. 다 알고 있고 싶을 때 RAG (Retrieval-Augmented Generation) 1. 외부에

    데이터를 두고 프롬프트로 적절한 쿼리를 만들어 던져 질의 후 2. 그 값을 프롬프트로 줘서 답변 생성에 씀 Fine-tuning 1. 모델 자체의 파라미터 (가중치)를 조절하거나, 따로 훈련한 가중치를 합쳐 2. 모델의 동작 자체를 변경
  16. 파인 튜닝 서비스 모델 = 기반 모델 + 미세 조정

    (파인 튜닝) *모든 모델을 처음부터 훈련하면 비용이 너무 많이 들어감… 미세 조정 (Fine-tuning) 언어 처리에 대해 특화한 기반 모델은 목적성이 없음 언어의 구조에 기반하여 훈련한 모델 특화한 지식 및 답변 세트에 맞춰 미세 조정 실제 데이터 등은 외부 검색 엔진 및 데이터베이스 (대개 vectorDB 형태) 를 참조하도록 중간에 코드 추가
  17. Gemini 구글의 대표 클라우드 언어 모델 구글 클라우드 네 가지

    크기 옵션을 통해 사용 가능 네가지 크기 옵션: Nano, Flash, Pro, Ultra 통합: Google AI Studio and Vertex AI 전체 구글 워크스페이스에 걸쳐 긴밀하게 통합됨
  18. Gemini 2.0 Gemini 1.5: 2백만 토큰 지원 최대 4백만 1천만

    토큰 구글 클라우드에서 사용 가능 단발성 학습: 미세 조정의 필요성 감소 성능과 비용 사이에서 균형: Pro 또는 Flash Gemini 2.0: Agent 응용을 고려한 모델 Flash 부터 공개 12월 11일 TPU 6세대로 개발
  19. Gemma Google의 개방형 LLM/VLM 모델 로컬 서버 및 Google 클라우드를

    통해 사용 가능 다양한 크기: 2B, 7B Gemma 1 , 2B, 9B, 27B Gemma 2 / 6조개의 토큰으로 훈련 세가지 모델 타입: Gemma, PeliGamma 1/2, RecurrentGemma 지원 프레임워크: JAX, Keras, TensorFlow, and PyTorch
  20. Gemma 다양한 기기에서 자유롭게 사용 IoT에서 클라우드까지 로컬 서버에서 사용

    자유로운 파인튜닝: 체크포인트, 가중치 및 훈련 도구 모두 제공 작지만 강력함: 향상된 한국어 지원
  21. 구글의 투 트랙 전략 구글의 비지니스 모델 이원화 클라우드 기반

    API 서비스 Gemini 온프레미스 오픈 모델 Gemma 오픈소스 전략적 가치 21세기 IT 혁신의 핵심 동력으로서의 오픈소스 기업의 오픈소스 활용 전략 중요성 직접 오픈소스 제공 기업으로서의 위치 확보
  22. Gemma Developer Day Japan 2024년 10월 3일 / 도쿄 시부야

    구글 오피스 Gemma 일본어 특화 모델 발표 다양한 Gemma 모델 소개 실제 응용 사례 공유 발표 및 워크샵 세션 일본 현지 개발자 대상 한국 개발자 20명 이상 참석 개발자 중심의 전문가 그룹 구성 공식 행사 후 피드백 세션
  23. Gemma Developer Day Japan 전략적 의의 순다 피차이 CEO의 오프닝

    참석을 통한 전략적 중요성 강조 클라우드 비즈니스 외 신규 사업 모델 구체화 개발자 및 시장 피드백 수집 채널 확보
  24. Gemma의 실험적 접근 RecurrentGemma 트랜스포머 대신 어텐션 메커니즘 활용 새로운

    구조 실험 PaliGemma 비전 언어 통합 모델 멀티모달 처리 기능 CodeGemma 코드 개발 특화 기능 개발자 지원 최적화 DataGemma Data commons 기반 질의 처리 답변 태그를 통한 그라운딩 구현
  25. PaliGamma 이미지 처리에 특화한 VLM ViT Gemma 머지 모델 묘사,

    오브젝트 검색 및 픽셀 좌표 판독 등
  26. DataGamma 답변의 할루시네이션을 방지하기 위한 LLM Data commons 기반 그라운딩을

    위한 쿼리 생성 후 답변 태그 형태로 만들어 삽입 이후 답변 태그를 페치하여 답변 완성
  27. WARM: Weight Average Reward Models 보상 모델이 예기치 않은 방식으로

    과적합되는 상황 미세조정을 다양하게 해서 그냥 평균을 내 버리자!
  28. Gemma JPN Gemma 2 2B JPN: Gemma 의 일본어 처리

    특화 모델 2024년 10월 공개 GPT 3.5에 준하는 성능 / 스마트폰에서 이용 파인튜닝을 이용한 국가별 특화 AI 모델 개발 사례 Navarasa 인도 사례와 유사
  29. AI 지역화 사례 Project Vaani Vaani and Google, 2023 인도

    디지털화의 포용성을 강화하기 위한 프로젝트 다양한 지역어 773곳 / 인도어의 음성 데이터 수집 및 오픈소스화를 목표로 함 Project Navarasa Google, 2024 Gemma 의 멀티링구얼 기능을 이용한 다언어 사용 국가 실증 프로젝트 15가지의 인도 내 언어 지원 제주 방언 프로젝트 Google, 2024 제주도 방언을 해석하는 LLM으로 파인튜닝하기 잘된다?! 소버린 LLM 으로의 확장 가능성 발견
  30. Gemma 2의 일본어 성능 Gemma 2의 뛰어난 일본어 성능 Gemma

    2 9B: 100억 파라미터 미만 모델 중 최고 성능 Gemma 2 27B: 700억 규모 모델들 Llama 3.1 70B, wen2 72B 등 과 비슷한 성능 Gemma 2 27B의 일본어 MT bench 점수: GPT 4와 GPT 3.5의 중간 수준 Gemma 2의 과소평가 이유 기존 Gemma에 sliding window attention과 logit soft capping을 추가 최근까지 오픈소스 추론 엔진들이 이러한 구성요소들을 제대로 구현하지 못함 추론 엔진의 출력 결과가 정상적이지 않았음 vLLM이 v0.6.1.post1 부터 Gemma 2를 제대로 지원하기 시작함
  31. Gemma JPN 만들기 혁신적 파인튜닝 접근법 기존 데이터 기반 학습의

    한계 극복 / 강화학습 기반의 새로운 방법론 구체적 학습 방식 일본어 답변에 대한 positive reward / 타 언어 답변에 대한 negative reward 적용 언어 선택에 대한 명확한 보상 체계 기술적 장점 답변의 표현형에만 영향을 주는 선별적 드리프트 기존 파인튜닝 대비 성능 하락 최소화 모델의 기본 추론 능력 보존
  32. 피드백 세션 공식 행사 후 1시간 20분 일본, 한국의 초청

    개발자들 참여 내 피드백 인퍼런스 알고리즘 최적화 토크나이저 개선 방안 / Vocab 테이블 관련 피드백 유니코드 캐릭터 테이블에서 한국어의 독특한 위치
  33. 오늘 우리는 • 거대 언어 모델 • 토큰과 컨텍스트 윈도우

    • 인 컨텍스트 러닝 • Gemini 와 Gemma • Gemma Dev Day 와 소버린 LLM
  34. 생각해 볼 점 적극적인 실험 정신의 중요성 무엇이 오픈 시스템에서

    무엇이 가능할 것인가? 어떤 세상에 대한 준비를 해야 할까? ChatGPT 서비스 다운 Dec. 12, 2024 우리는 클라우드에만 의존할 수 있을까?