일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 체당금
- 홈택스
- 당사자표시정정신청서
- 인민공원
- javascript
- Laravel
- 전자소송
- auth
- php
- Sentinel
- 이더리움
- as후기
- Blade
- 사업자계좌
- cartalyst
- 코로나19
- 코로나
- Java
- Python
- win32
- vue
- elasticSearch
- 개인사업자
- reactnative
- 소액임금체불
- 보정명령
- Eclipse
- blockchain
- Bootstrap
- Tutorial
- Today
- Total
그냥 사는 이야기
Amazon에서 bigdata를 다루려면 EMR/RedShift 본문
구조화 혹은 반구조화된 다양한 형태의 아주 방대한 데이터를 처리하려고 합니다. 이 데이터를 분석하고 BI(Business Intelligence)를 도출하여 활용할 수 있는 시스템을 구축해야 합니다. 그리고 표준 SQL 쿼리로 처리가 가능해야 합니다. 물론 쿼리 성능이 좋아야겠죠. 그렇다면 아래의 2가지 서비스를 고려해 볼 수 있습니다.
Amazon EMR
Amazon EMR은 방대한 양의 데이터를 처리하고 분석하기 위해 AWS에서 Apache Hadoop 및 Apache Spark와 같은 빅데이터 프레임워크 실행하는 것을 간소화하는 관리형 클러스터 플랫폼입니다. 이러한 프레임워크와 관련 오픈 소스 프로젝트(예: Apache Hive 및 Apache Pig)를 사용하여 분석 및 비즈니스 인텔리전스 워크로드를 위해 데이터를 처리할 수 있습니다. 또한 Amazon EMR을 사용하여 대량의 데이터를 다른 AWS 데이터 저장소 및 데이터베이스로 변환하고 이동할 수 있습니다.
EMR에서는 S3, HDFS(Hadoop 분산 파일 시스템), DynamoDB, EMR을 비롯한 여러 데이터 저장소를 활용할 수 있습니다.
Amazon Redshift
Amazon Redshift는 가장 널리 사용되는 클라우드 데이터 웨어하우스입니다. 표준 SQL과 기존 비즈니스 인텔리전스(BI) 도구를 사용하여 모든 데이터를 빠르고 간단하며 비용 효율적으로 분석할 수 있습니다. 정교한 쿼리 최적화, 고성능 스토리지의 컬럼형 스토리지, 대규모 병렬 쿼리 실행을 사용하여 테라바이트에서 페타바이트에 이르는 정형 및 반정형 데이터에 대한 복잡한 분석 쿼리를 실행할 수 있습니다.
빅데이터 처리 프레임워크를 활용하려면 Amazon EMR을 사용해야 합니다. 이 클러스터는 데이터 변환(ETL)을 수행하고 처리된 데이터를 분석 및 비즈니스 인텔리전스 애플리케이션을 위해 Amazon Redshift에 로드합니다.
S3 select 기능을 사용하면 특정 S3 개체의 데이터 하위 집합에 대해 간단한 SQL 쿼리만 실행할 수 있습니다. S3 버킷에서 쿼리를 수행하려면 Amazon Athena를 사용해야 합니다.
기타
이외에도 알아둘만한 서비스로는 AWS Glue와 Kinesis가 있습니다.
Glue는 데이터를 크롤링하고, 데이터 카탈로그를 구축하고, 데이터 준비, 데이터 변환, 데이터 수집을 수행하는 서버리스 ETL 서비스입니다. 하지만 다양한 빅데이터 프레임워크를 효과적으로 활용할 수는 없습니다.
Kinesis는 실시간 데이터 분석 서비스 입니다. Realtime 인거죠.
빅데이터를 어떻게 처리할 것인지? 어떻게 활용할 것인지에 대한 차이로도 선택할 수 있는 서비스들의 조합을 다르게 고려해 볼 수 있을 것입니다.
'Development > System' 카테고리의 다른 글
웹사이트가 장애시 Static 사이트로 Failover 하기 (Route53) (0) | 2023.05.27 |
---|---|
FUA (Force Unit Access) 관련 (0) | 2021.02.02 |
InterlockedXXXXX() 함수의 인자는 왜 volatile 일까? (0) | 2021.01.25 |
Ubuntu 18.04에서 MYSQL 8 설치하기 (0) | 2020.12.02 |
Docker로 tendermint 실행 (0) | 2020.11.30 |