그냥 사는 이야기

Amazon에서 bigdata를 다루려면 EMR/RedShift 본문

Development/System

Amazon에서 bigdata를 다루려면 EMR/RedShift

없다캐라 2023. 5. 25. 09:35
반응형

구조화 혹은 반구조화된 다양한 형태의 아주 방대한 데이터를 처리하려고 합니다. 이 데이터를 분석하고 BI(Business Intelligence)를 도출하여 활용할 수 있는 시스템을 구축해야 합니다. 그리고 표준 SQL 쿼리로 처리가 가능해야 합니다. 물론 쿼리 성능이 좋아야겠죠. 그렇다면 아래의 2가지 서비스를 고려해 볼 수 있습니다.

Amazon EMR

Amazon EMR은 방대한 양의 데이터를 처리하고 분석하기 위해 AWS에서 Apache Hadoop 및 Apache Spark와 같은 빅데이터 프레임워크 실행하는 것을 간소화하는 관리형 클러스터 플랫폼입니다. 이러한 프레임워크와 관련 오픈 소스 프로젝트(예: Apache Hive 및 Apache Pig)를 사용하여 분석 및 비즈니스 인텔리전스 워크로드를 위해 데이터를 처리할 수 있습니다. 또한 Amazon EMR을 사용하여 대량의 데이터를 다른 AWS 데이터 저장소 및 데이터베이스로 변환하고 이동할 수 있습니다.

EMR에서는 S3, HDFS(Hadoop 분산 파일 시스템), DynamoDB, EMR을 비롯한 여러 데이터 저장소를 활용할 수 있습니다.

Amazon Redshift

Amazon Redshift는 가장 널리 사용되는 클라우드 데이터 웨어하우스입니다. 표준 SQL과 기존 비즈니스 인텔리전스(BI) 도구를 사용하여 모든 데이터를 빠르고 간단하며 비용 효율적으로 분석할 수 있습니다. 정교한 쿼리 최적화, 고성능 스토리지의 컬럼형 스토리지, 대규모 병렬 쿼리 실행을 사용하여 테라바이트에서 페타바이트에 이르는 정형 및 반정형 데이터에 대한 복잡한 분석 쿼리를 실행할 수 있습니다.

빅데이터 처리 프레임워크를 활용하려면 Amazon EMR을 사용해야 합니다. 이 클러스터는 데이터 변환(ETL)을 수행하고 처리된 데이터를 분석 및 비즈니스 인텔리전스 애플리케이션을 위해 Amazon Redshift에 로드합니다.

S3 select 기능을 사용하면 특정 S3 개체의 데이터 하위 집합에 대해 간단한 SQL 쿼리만 실행할 수 있습니다. S3 버킷에서 쿼리를 수행하려면 Amazon Athena를 사용해야 합니다. 

기타

이외에도 알아둘만한 서비스로는 AWS Glue와 Kinesis가 있습니다.

Glue는 데이터를 크롤링하고, 데이터 카탈로그를 구축하고, 데이터 준비, 데이터 변환, 데이터 수집을 수행하는 서버리스 ETL 서비스입니다. 하지만 다양한 빅데이터 프레임워크를 효과적으로 활용할 수는 없습니다.

Kinesis는 실시간 데이터 분석 서비스 입니다. Realtime 인거죠.

빅데이터를 어떻게 처리할 것인지? 어떻게 활용할 것인지에 대한 차이로도 선택할 수 있는 서비스들의 조합을 다르게 고려해 볼 수 있을 것입니다.

Comments