**고성능 컴퓨팅(HPC)**을 AWS에서 구현할 때 주로 사용하는 서비스는 다음과 같습니다.
- Amazon EC2
- HPC 전용 인스턴스 (예: C7g, Hpc6a, Hpc7g, GPU 작업용 P4/P5)
- EC2 스팟 인스턴스로 대규모 작업 비용 절감
- Elastic Fabric Adapter(EFA): 노드 간 초저지연·고대역폭 네트워킹 지원
- AWS Batch
- 대규모 병렬·배치 작업을 자동으로 스케줄링하고 실행하는 관리형 서비스
- AWS ParallelCluster
- HPC 클러스터를 빠르게 배포·관리할 수 있는 오픈소스 툴
- Amazon FSx for Lustre
- HPC 워크로드에 최적화된 초고속 공유 파일 시스템
- Amazon S3
- 대규모 데이터셋, 결과물, 체크포인트 저장
- AWS Step Functions
- 복잡한 HPC 워크플로우를 순서대로 실행·오케스트레이션
정리:
AWS HPC의 핵심 구성은 EC2 + EFA + FSx for Lustre + ParallelCluster + AWS Batch입니다.
**데이터 관리 & 전송(Data Management & Transfer)**에서 AWS가 제공하는 주요 서비스는 다음과 같습니다.
- AWS Direct Connect
- 전용 회선을 통해 안전하고 안정적인 사설 네트워크로 데이터를 전송
- 최대 GB/s 단위의 속도로 대규모 데이터를 클라우드로 전송 가능
- AWS Snowball & Snowmobile
- Snowball: 수십~수백 TB 데이터를 물리 디바이스로 전송
- Snowmobile: 최대 100PB급 데이터를 트럭 형태로 전송 (초대형 데이터 마이그레이션)
- AWS DataSync
- 온프레미스 ↔ AWS 간 데이터 전송 자동화
- Amazon S3, Amazon EFS, Amazon FSx for Windows와 연결 가능
- 병렬 전송, 네트워크 최적화로 대규모 데이터를 빠르게 복제/이동
**컴퓨팅 & 네트워킹(Compute and Networking)**에서 AWS가 제공하는 주요 기능은 다음과 같습니다.
- Amazon EC2 인스턴스
- CPU 최적화 인스턴스: 고성능 연산 작업에 적합 (예: C 시리즈)
- GPU 최적화 인스턴스: 머신러닝, 딥러닝, 그래픽 렌더링 등 GPU 연산에 적합 (예: P, G 시리즈)
- 스팟 인스턴스 / 스팟 플릿(Spot Fleet)
- 유휴 EC2 용량을 저렴하게 사용
- Auto Scaling과 결합하여 수요에 맞게 자동 확장/축소
- EC2 Placement Groups
- Cluster Placement Group: 인스턴스를 물리적으로 가까이 배치해 저지연·고대역폭 네트워킹 구현
- (참고) Spread / Partition Placement Group도 존재하며, 고가용성이나 워크로드 격리에 활용 가능
컴퓨팅 & 네트워킹(Compute and Networking) – 고성능 네트워크 기능
- EC2 Enhanced Networking (SR-IOV)
- SR-IOV(Single Root I/O Virtualization) 기반으로 네트워크 성능 향상
- 장점:
- 더 높은 대역폭
- 더 높은 PPS(Packet Per Second) 처리량
- 더 낮은 지연 시간
- 옵션 1: Elastic Network Adapter (ENA)
- 최대 100Gbps 네트워크 속도 제공
- 대부분의 최신 인스턴스에서 지원
- 옵션 2: Intel 82599 VF (레거시)
- 최대 10Gbps 속도
- 예전 세대 인스턴스에서 사용
- Elastic Fabric Adapter (EFA)
- ENA 성능을 개선한 HPC 전용 네트워크 어댑터
- Linux 전용
- 노드 간 통신과 밀결합(tightly coupled) 워크로드에 최적화
- MPI(Message Passing Interface) 표준을 활용
- 리눅스 커널 네트워크 스택을 우회하여 초저지연·고신뢰 전송 제공
즉, ENA는 일반적인 고성능 네트워킹, EFA는 HPC·분산 과학 계산을 위한 초저지연 네트워킹에 특화되어 있습니다.
1. 인스턴스 연결 스토리지 (Instance-attached Storage)
- Amazon EBS (Elastic Block Store)
- EC2 인스턴스에 네트워크로 연결되는 블록 스토리지
- io2 Block Express 사용 시 최대 256,000 IOPS까지 확장 가능
- 데이터는 인스턴스 종료 후에도 유지
- Instance Store
- EC2 인스턴스의 물리적 호스트에 직접 연결된 로컬 디스크
- 초저지연, 수백만 IOPS 지원
- 인스턴스 종료 시 데이터 삭제됨(휘발성)
2. 네트워크 스토리지 (Network Storage)
- Amazon S3
- 대규모 오브젝트 스토리지 (Blob 형태)
- 파일 시스템이 아님, 주로 정적 데이터·백업·아카이브에 사용
- Amazon EFS (Elastic File System)
- 관리형 NFS 파일 시스템
- 총 용량 증가에 따라 IOPS 자동 확장 또는 Provisioned IOPS 설정 가능
- Amazon FSx for Lustre
- HPC(고성능 컴퓨팅) 워크로드에 최적화된 분산 파일 시스템
- 수백만 IOPS 지원
- 백엔드 데이터 저장소로 Amazon S3와 연동 가능
📌 요약
- EBS → 지속성 블록 스토리지, 일반 애플리케이션 데이터 저장
- Instance Store → 초고속 임시 스토리지
- S3 → 대규모 오브젝트 저장
- EFS → 확장 가능한 공유 파일 시스템(NFS)
- FSx for Lustre → HPC용 초고속 분산 파일 시스템
1. AWS Batch
- 멀티 노드 병렬 작업 지원 → 하나의 작업을 여러 EC2 인스턴스에 걸쳐 실행 가능
- 작업 스케줄링 및 EC2 인스턴스 자동 생성·종료
- 대규모 배치 워크로드나 병렬 연산에 최적
2. AWS ParallelCluster
- AWS에서 HPC 클러스터를 손쉽게 배포하는 오픈소스 클러스터 관리 툴
- 설정 파일(텍스트 기반)로 VPC, 서브넷, 클러스터 유형, 인스턴스 유형 자동 구성
- 클러스터에 EFA(Elastic Fabric Adapter) 활성화 가능 → HPC 네트워크 성능 향상
- 반복 가능한 HPC 환경 배포 가능
📌 정리
- AWS Batch → HPC 작업 실행·스케줄링 자동화
- AWS ParallelCluster → HPC 인프라 구성 자동화
'AWS' 카테고리의 다른 글
AWS WELL - ARCHTECTED FRAMEWORK (1) | 2025.08.13 |
---|---|
AMAZON 기타서비스 (4) | 2025.08.13 |
more solution architect (0) | 2025.08.12 |
Disaster Recovery Overview (3) | 2025.08.12 |
VPC (3) | 2025.08.11 |