Open Source, Big Data, and Everything

오픈소스, 빅데이터 그리고 모든 것 Open Source, Big Data, and
Everything 이동진 | [email protected]

오늘 이야기할 내용은... • 오픈소스 (Open Source) • 빅데이터 (Big
Data) • 좀 더 구체적으로… ◦ 왜 오픈소스가 빅데이터 처리 기술을 이끌고 있는가? ◦ 빅데이터 처리에 사용되는 오픈소스 기술에는 어떤 것들이 있는가?

오픈소스: 초간단 설명 • ‘공개 개발’ (public development) ◦ 소스코드
공개 ◦ 재창작, 재배포 허용 ◦ 커뮤니티에 의한 개발 및 배포 (암묵적 특징)

오픈소스의 장점 • 모험적인 신기술의 도입 • 커뮤니티의 확장으로 인한
발전 • 기존 기술을 기반으로 한 추가적인 확장 ◦ 생태계(ecosystem)의 형성

사례: Apache Hadoop (2006) • "빅데이터 혁명" = "데이터가 곧
자원" ◦ 전제: 거대한 데이터를 싸고 빠르게 처리할 수 있는 기술의 존재. • Hadoop (2006): 빅데이터 혁명의 시발점이 된 기술 ◦ Commodity hardware 상에서 돌아가는 분산 연산 프레임워크 ◦ “일반 PC를 잔뜩 끌어모아다 설치만 하면 슈퍼컴퓨터 수준의 연산을 수행할 수 있다!” ◦ Terabyte Sort benchmark 우승 (2008) • Google 논문을 오픈소스로 구현한 것 (Yahoo) ◦ Google File System (2003), MapReduce (2004)

Hadoop: 모험적인 신기술의 도입 • 수요조차 없던 기술 ◦ “이런
걸 필요로 하는 데가 있겠어? 학술적으로는 가치가 있겠지.” (feat. Google) ◦ “직접 구현하는 것 외에는 방법이 없겠군.” (feat. Doug Cutting) • Apache Nutch의 sub 프로젝트 → 독립 프로젝트 ◦ 검색 인덱스를 구축하기 위한 수단 → 범용 연산 프레임워크 ◦ 프로젝트 시작 (2006.01) ◦ 0.1.0 출시 (2006.04) ◦ 3개 기업에 의해 도입 (2007.06) ▪ Facebook을 포함, 20개 기업에 의해 도입 (2008.01)

Hadoop: 커뮤니티의 확장으로 인한 발전 • 인터넷 기업들이 도입해 쓰기
시작 ◦ Facebook, Linkedin, Twitter, eBay, … • 커뮤니티가 확장되면서 급속도로 발전 • 기존 대기업들도 도입 ◦ 전문 기업 등장 ▪ Cloudera (2008.10) ▪ Hortonworks (2011.06)

Hadoop: 진화, 그리고 추가적인 확장 (1) • 주변 기술들의 등장
◦ Hive: Hadoop 기반 data warehousing system ◦ HBase: Hadoop 기반 storage system ◦ Giraph: Hadoop 기반 graph computation system ◦ Pig, Sqoop, etc ... • 문제 제기 ◦ Scalability 문제 ▪ 4000 node 문제 ◦ 프로그래밍 모델에 대한 불만 ▪ MapReduce model

Hadoop: 진화, 그리고 추가적인 확장 (2) • Hadoop 2.0 이후
(2013) ◦ MapReduce 연산 모델 프레임워크 → 범용 병렬 연산 프레임워크 ◦ 설계 변경 ▪ 4000 node 문제 해결: 10000 node ~ ▪ 다양한 병렬 연산 모델을 지원하기 시작 • MapReduce 모델은 그저 연산 모델 중 하나일 뿐! • 대체, 그리고 확장 ◦ Hadoop의 요소들은 하나씩 대체 + Hadoop에 의해 필요성이 제기되었던 프로젝트들의 등장 ◦ Spark: In-memory distributed computing ◦ Kafka: Stream processing

Hadoop이 만들어 낸 생태계 • 예: IoT로부터 실시간으로 주어지는 데이터를
수집해서 정제한 뒤 저장하기

정리 • 오픈소스의 장점 ◦ 모험적인 신기술의 도입 ◦ 커뮤니티의
확장으로 인한 발전 ◦ 기존 기술을 기반으로 한 추가적인 확장 • 빅데이터 생태계는 오픈소스의 대표적인 성공사례 ◦ Machine Learning, AI, Blockchain 등에도 적용되는 모델

끝! • 질문?

Open Source, Big Data, and Everything

Open Source, Big Data, and Everything

Lee Dongjin

More Decks by Lee Dongjin

Other Decks in Technology

Featured

Transcript

오픈소스, 빅데이터 그리고 모든 것 Open Source, Big Data, and

오늘 이야기할 내용은... • 오픈소스 (Open Source) • 빅데이터 (Big

오픈소스: 초간단 설명 • ‘공개 개발’ (public development) ◦ 소스코드

오픈소스의 장점 • 모험적인 신기술의 도입 • 커뮤니티의 확장으로 인한

사례: Apache Hadoop (2006) • "빅데이터 혁명" = "데이터가 곧

Hadoop: 모험적인 신기술의 도입 • 수요조차 없던 기술 ◦ “이런

Hadoop: 커뮤니티의 확장으로 인한 발전 • 인터넷 기업들이 도입해 쓰기

Hadoop: 진화, 그리고 추가적인 확장 (1) • 주변 기술들의 등장

Hadoop: 진화, 그리고 추가적인 확장 (2) • Hadoop 2.0 이후

Hadoop이 만들어 낸 생태계 • 예: IoT로부터 실시간으로 주어지는 데이터를

정리 • 오픈소스의 장점 ◦ 모험적인 신기술의 도입 ◦ 커뮤니티의

끝! • 질문?