본문 바로가기
AWS

HPC

by yutju 2025. 8. 13.

**고성능 컴퓨팅(HPC)**을 AWS에서 구현할 때 주로 사용하는 서비스는 다음과 같습니다.

  • Amazon EC2
    • HPC 전용 인스턴스 (예: C7g, Hpc6a, Hpc7g, GPU 작업용 P4/P5)
    • EC2 스팟 인스턴스로 대규모 작업 비용 절감
    • Elastic Fabric Adapter(EFA): 노드 간 초저지연·고대역폭 네트워킹 지원
  • AWS Batch
    • 대규모 병렬·배치 작업을 자동으로 스케줄링하고 실행하는 관리형 서비스
  • AWS ParallelCluster
    • HPC 클러스터를 빠르게 배포·관리할 수 있는 오픈소스 툴
  • Amazon FSx for Lustre
    • HPC 워크로드에 최적화된 초고속 공유 파일 시스템
  • Amazon S3
    • 대규모 데이터셋, 결과물, 체크포인트 저장
  • AWS Step Functions
    • 복잡한 HPC 워크플로우를 순서대로 실행·오케스트레이션

정리:
AWS HPC의 핵심 구성은 EC2 + EFA + FSx for Lustre + ParallelCluster + AWS Batch입니다.

 

 

**데이터 관리 & 전송(Data Management & Transfer)**에서 AWS가 제공하는 주요 서비스는 다음과 같습니다.

  • AWS Direct Connect
    • 전용 회선을 통해 안전하고 안정적인 사설 네트워크로 데이터를 전송
    • 최대 GB/s 단위의 속도로 대규모 데이터를 클라우드로 전송 가능
  • AWS Snowball & Snowmobile
    • Snowball: 수십~수백 TB 데이터를 물리 디바이스로 전송
    • Snowmobile: 최대 100PB급 데이터를 트럭 형태로 전송 (초대형 데이터 마이그레이션)
  • AWS DataSync
    • 온프레미스 ↔ AWS 간 데이터 전송 자동화
    • Amazon S3, Amazon EFS, Amazon FSx for Windows와 연결 가능
    • 병렬 전송, 네트워크 최적화로 대규모 데이터를 빠르게 복제/이동

 

 

**컴퓨팅 & 네트워킹(Compute and Networking)**에서 AWS가 제공하는 주요 기능은 다음과 같습니다.

  • Amazon EC2 인스턴스
    • CPU 최적화 인스턴스: 고성능 연산 작업에 적합 (예: C 시리즈)
    • GPU 최적화 인스턴스: 머신러닝, 딥러닝, 그래픽 렌더링 등 GPU 연산에 적합 (예: P, G 시리즈)
  • 스팟 인스턴스 / 스팟 플릿(Spot Fleet)
    • 유휴 EC2 용량을 저렴하게 사용
    • Auto Scaling과 결합하여 수요에 맞게 자동 확장/축소
  • EC2 Placement Groups
    • Cluster Placement Group: 인스턴스를 물리적으로 가까이 배치해 저지연·고대역폭 네트워킹 구현
    • (참고) Spread / Partition Placement Group도 존재하며, 고가용성이나 워크로드 격리에 활용 가능

 

 

컴퓨팅 & 네트워킹(Compute and Networking) – 고성능 네트워크 기능

  • EC2 Enhanced Networking (SR-IOV)
    • SR-IOV(Single Root I/O Virtualization) 기반으로 네트워크 성능 향상
    • 장점:
      • 더 높은 대역폭
      • 더 높은 PPS(Packet Per Second) 처리량
      • 더 낮은 지연 시간
  • 옵션 1: Elastic Network Adapter (ENA)
    • 최대 100Gbps 네트워크 속도 제공
    • 대부분의 최신 인스턴스에서 지원
  • 옵션 2: Intel 82599 VF (레거시)
    • 최대 10Gbps 속도
    • 예전 세대 인스턴스에서 사용
  • Elastic Fabric Adapter (EFA)
    • ENA 성능을 개선한 HPC 전용 네트워크 어댑터
    • Linux 전용
    • 노드 간 통신밀결합(tightly coupled) 워크로드에 최적화
    • MPI(Message Passing Interface) 표준을 활용
    • 리눅스 커널 네트워크 스택을 우회하여 초저지연·고신뢰 전송 제공

즉, ENA는 일반적인 고성능 네트워킹, EFA는 HPC·분산 과학 계산을 위한 초저지연 네트워킹에 특화되어 있습니다.

 

1. 인스턴스 연결 스토리지 (Instance-attached Storage)

  • Amazon EBS (Elastic Block Store)
    • EC2 인스턴스에 네트워크로 연결되는 블록 스토리지
    • io2 Block Express 사용 시 최대 256,000 IOPS까지 확장 가능
    • 데이터는 인스턴스 종료 후에도 유지
  • Instance Store
    • EC2 인스턴스의 물리적 호스트에 직접 연결된 로컬 디스크
    • 초저지연, 수백만 IOPS 지원
    • 인스턴스 종료 시 데이터 삭제됨(휘발성)

2. 네트워크 스토리지 (Network Storage)

  • Amazon S3
    • 대규모 오브젝트 스토리지 (Blob 형태)
    • 파일 시스템이 아님, 주로 정적 데이터·백업·아카이브에 사용
  • Amazon EFS (Elastic File System)
    • 관리형 NFS 파일 시스템
    • 총 용량 증가에 따라 IOPS 자동 확장 또는 Provisioned IOPS 설정 가능
  • Amazon FSx for Lustre
    • HPC(고성능 컴퓨팅) 워크로드에 최적화된 분산 파일 시스템
    • 수백만 IOPS 지원
    • 백엔드 데이터 저장소로 Amazon S3와 연동 가능

📌 요약

  • EBS → 지속성 블록 스토리지, 일반 애플리케이션 데이터 저장
  • Instance Store → 초고속 임시 스토리지
  • S3 → 대규모 오브젝트 저장
  • EFS → 확장 가능한 공유 파일 시스템(NFS)
  • FSx for Lustre → HPC용 초고속 분산 파일 시스템

 

1. AWS Batch

  • 멀티 노드 병렬 작업 지원 → 하나의 작업을 여러 EC2 인스턴스에 걸쳐 실행 가능
  • 작업 스케줄링 및 EC2 인스턴스 자동 생성·종료
  • 대규모 배치 워크로드나 병렬 연산에 최적

2. AWS ParallelCluster

  • AWS에서 HPC 클러스터를 손쉽게 배포하는 오픈소스 클러스터 관리 툴
  • 설정 파일(텍스트 기반)로 VPC, 서브넷, 클러스터 유형, 인스턴스 유형 자동 구성
  • 클러스터에 EFA(Elastic Fabric Adapter) 활성화 가능 → HPC 네트워크 성능 향상
  • 반복 가능한 HPC 환경 배포 가능

📌 정리

  • AWS Batch → HPC 작업 실행·스케줄링 자동화
  • AWS ParallelCluster → HPC 인프라 구성 자동화

 

'AWS' 카테고리의 다른 글

AWS WELL - ARCHTECTED FRAMEWORK  (1) 2025.08.13
AMAZON 기타서비스  (4) 2025.08.13
more solution architect  (0) 2025.08.12
Disaster Recovery Overview  (3) 2025.08.12
VPC  (3) 2025.08.11