Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Open Source, Big Data, and Everything

Avatar for Lee Dongjin Lee Dongjin
October 16, 2018

Open Source, Big Data, and Everything

오픈소스, 빅데이터, 그리고 모든 것. 오픈소스와 빅데이터 처리 기술의 관계는 무엇인가?
2018년 10월, 제 2회 공개 소프트웨어 커뮤니티 데이 키노트 스피치.

The relationship between open source and big data.
Keynote speech of Open Source Community Day 2018, Seoul, Korea.

Slides: Korean. Presentation: Korean.

Avatar for Lee Dongjin

Lee Dongjin

October 16, 2018
Tweet

More Decks by Lee Dongjin

Other Decks in Technology

Transcript

  1. 오늘 이야기할 내용은... • 오픈소스 (Open Source) • 빅데이터 (Big

    Data) • 좀 더 구체적으로… ◦ 왜 오픈소스가 빅데이터 처리 기술을 이끌고 있는가? ◦ 빅데이터 처리에 사용되는 오픈소스 기술에는 어떤 것들이 있는가?
  2. 오픈소스: 초간단 설명 • ‘공개 개발’ (public development) ◦ 소스코드

    공개 ◦ 재창작, 재배포 허용 ◦ 커뮤니티에 의한 개발 및 배포 (암묵적 특징)
  3. 오픈소스의 장점 • 모험적인 신기술의 도입 • 커뮤니티의 확장으로 인한

    발전 • 기존 기술을 기반으로 한 추가적인 확장 ◦ 생태계(ecosystem)의 형성
  4. 사례: Apache Hadoop (2006) • "빅데이터 혁명" = "데이터가 곧

    자원" ◦ 전제: 거대한 데이터를 싸고 빠르게 처리할 수 있는 기술의 존재. • Hadoop (2006): 빅데이터 혁명의 시발점이 된 기술 ◦ Commodity hardware 상에서 돌아가는 분산 연산 프레임워크 ◦ “일반 PC를 잔뜩 끌어모아다 설치만 하면 슈퍼컴퓨터 수준의 연산을 수행할 수 있다!” ◦ Terabyte Sort benchmark 우승 (2008) • Google 논문을 오픈소스로 구현한 것 (Yahoo) ◦ Google File System (2003), MapReduce (2004)
  5. Hadoop: 모험적인 신기술의 도입 • 수요조차 없던 기술 ◦ “이런

    걸 필요로 하는 데가 있겠어? 학술적으로는 가치가 있겠지.” (feat. Google) ◦ “직접 구현하는 것 외에는 방법이 없겠군.” (feat. Doug Cutting) • Apache Nutch의 sub 프로젝트 → 독립 프로젝트 ◦ 검색 인덱스를 구축하기 위한 수단 → 범용 연산 프레임워크 ◦ 프로젝트 시작 (2006.01) ◦ 0.1.0 출시 (2006.04) ◦ 3개 기업에 의해 도입 (2007.06) ▪ Facebook을 포함, 20개 기업에 의해 도입 (2008.01)
  6. Hadoop: 커뮤니티의 확장으로 인한 발전 • 인터넷 기업들이 도입해 쓰기

    시작 ◦ Facebook, Linkedin, Twitter, eBay, … • 커뮤니티가 확장되면서 급속도로 발전 • 기존 대기업들도 도입 ◦ 전문 기업 등장 ▪ Cloudera (2008.10) ▪ Hortonworks (2011.06)
  7. Hadoop: 진화, 그리고 추가적인 확장 (1) • 주변 기술들의 등장

    ◦ Hive: Hadoop 기반 data warehousing system ◦ HBase: Hadoop 기반 storage system ◦ Giraph: Hadoop 기반 graph computation system ◦ Pig, Sqoop, etc ... • 문제 제기 ◦ Scalability 문제 ▪ 4000 node 문제 ◦ 프로그래밍 모델에 대한 불만 ▪ MapReduce model
  8. Hadoop: 진화, 그리고 추가적인 확장 (2) • Hadoop 2.0 이후

    (2013) ◦ MapReduce 연산 모델 프레임워크 → 범용 병렬 연산 프레임워크 ◦ 설계 변경 ▪ 4000 node 문제 해결: 10000 node ~ ▪ 다양한 병렬 연산 모델을 지원하기 시작 • MapReduce 모델은 그저 연산 모델 중 하나일 뿐! • 대체, 그리고 확장 ◦ Hadoop의 요소들은 하나씩 대체 + Hadoop에 의해 필요성이 제기되었던 프로젝트들의 등장 ◦ Spark: In-memory distributed computing ◦ Kafka: Stream processing
  9. 정리 • 오픈소스의 장점 ◦ 모험적인 신기술의 도입 ◦ 커뮤니티의

    확장으로 인한 발전 ◦ 기존 기술을 기반으로 한 추가적인 확장 • 빅데이터 생태계는 오픈소스의 대표적인 성공사례 ◦ Machine Learning, AI, Blockchain 등에도 적용되는 모델