Spark
- 최대한 메모리를 활용하는 MapReduce
- 훨씬 다양한 API (distinct, groupByKey, sort, join, …)
- 재사용하는 데이터는 cache
- Map같은 연산은 lazy 하게 처리
Spark + S3
- 로그를 저장해 주는 HDFS layer를 따로 운영하지 않아도 됨
- s3n / s3 file system을 통해서 Hadoop에 잘 integration 되어 있음
- S3 EC2 간 데이터 전송이 무료!
Spark + R3 instance
• R3 instance
- 최근에 출시된, 메모리 optimized instance
- 메모리 244GB ( r3.8xlarge기준 )
- 320GB SSD x 2 (Shuffle 결과 임시 저장할 때 유리함)
- Spark에 최적화된 instance type
결론
Spark + S3 + R3 instance 조합으로 처리 용량을 늘리거나 줄일 수 있는 자유도가 있고 직접 운영하지 않아도 되는 10배 이상 빠른 분석 시스템을 만들었습니다