클라우드에서 성숙해지는 과학 컴퓨팅 옵션

작성자: 아감 샤

2023년 8월 31일

슈퍼컴퓨팅은 마력, 보안 및 시스템 관리를 포함한 여러 가지 이유로 주로 온프레미스 업무로 남아 있습니다. 기업이 워크로드를 클라우드로 이동하려면 더 많은 시간이 필요하지만 옵션은 늘어나고 있습니다. (Intersect 360 Research에서 최근 게시한 HPC-AI 예측을 참조하세요.)

지난 8월 Google Cloud와 Amazon Web Services는 온프레미스 시스템에서 제공하는 컴퓨팅의 온라인 버전인 고성능 컴퓨팅 가상 머신을 발표했습니다. HPC VM은 최신 프로세서, 초고속 상호 연결, 보안 기능, 메모리 용량을 포함한 클라우드 제공업체의 독점 기술을 기반으로 구축되었습니다.

HPC VM은 기업이 온프레미스 시스템과 AWS 및 Google에서 제공하는 가상 머신 간에 워크로드를 분할할 수 있는 하이브리드 배포를 지원합니다. 일부 HPC 사용자는 우선순위가 낮은 워크로드를 클라우드로 파견하여 온프레미스 컴퓨팅 리소스를 확보하여 더 중요한 워크로드를 실행하는 것을 선호합니다.

클라우드에서 HPC의 가장 큰 단점은 지리적으로 먼 거리에 걸쳐 네트워크 속도가 느리기 때문에 대역폭 제한이 있다는 것입니다. 그럼에도 불구하고 많은 엔지니어링 및 제약 회사는 고객이 사용할 수 있는 풍부한 개발 도구, 세탁된 데이터 세트 목록, 분석 및 데이터베이스 도구, 기타 미들웨어로 인해 클라우드로 전환하고 있습니다. Rescale 및 Altair와 같은 통합업체는 HPC 애플리케이션을 위한 공유 하이브리드 환경을 생성하기 위한 소프트웨어와 지원을 제공합니다.

클라우드 제공업체의 새로운 VM은 기존 과학 컴퓨팅에 중점을 두고 있습니다. 이 시스템은 AI를 대상으로 하지 않으며 GPU와 함께 번들로 제공되지 않습니다. AWS와 Google은 병렬 컴퓨팅 및 AI 애플리케이션을 대상으로 하는 Nvidia H100 GPU의 값비싼 인스턴스를 제공합니다.

AWS는 최근 코드명 Genoa인 AMD의 4세대 Epyc 칩을 기반으로 하는 VM인 EC2 Hpc7을 발표했습니다. Hpc7a는 코드명 Milan이라는 AMD의 이전 세대 Epyc 칩을 기반으로 하는 최신 EC2 Hpc6a 인스턴스의 업그레이드인 x86입니다.

Hpc7a는 완전히 로드된 VM 구성과 300Gbps 네트워크 대역폭에서 메모리 용량이 두 배입니다. Amazon은 Hpc7a가 Hpc6a 인스턴스보다 2.5배 빠른 속도를 제공한다고 주장했습니다. 가장 큰 hpc7a.96xlarge 인스턴스는 192개의 CPU 코어와 768GB의 DDR5 메모리를 제공합니다. VM은 HPC에서 널리 사용되는 Lustre와 같은 파일 시스템과 Elastic Fiber Adapter를 지원합니다.

AWS는 자체 개발한 Graviton3E 칩에서 실행되는 ARM 기반 Hpc7g를 비롯한 다른 HPC VM을 제공합니다. Riken 계산 과학 센터는 Hpc7g용 "가상 Fugaku", 즉 세계에서 두 번째로 빠른 슈퍼컴퓨터인 Fugaku의 소프트웨어 스택의 클라우드 버전을 AWS에 구축했습니다. Fugaku는 또한 ARM 프로세서를 기반으로 구축되어 소프트웨어 환경 복제가 가능합니다.

Google은 지난 8월 빠른 네트워크 속도와 다양한 CPU 코어를 통해 가격과 성능의 균형을 이루는 HPC용 H3 VM 인스턴스를 발표했습니다.

H3 구성은 Intel의 최신 Sapphire Rapids CPU를 기반으로 하며 각 노드는 88개의 CPU 코어와 352GB의 메모리를 통합합니다. VM은 병렬화되지 않고 단일 스레드 환경에서 실행되는 애플리케이션을 대상으로 합니다.

가상 머신은 코드명 Mount Evans인 Intel-Google이 공동 개발한 맞춤형 데이터 프로세서 E2000을 기반으로 구축되었습니다. H3 노드는 200Gbps의 속도로 통신할 수 있으며 16개의 ARM 기반 Neoverse N1 CPU 코어를 갖습니다.

Google의 벤치마크는 H3를 Sapphire Rapids보다 2세대 뒤처진 Intel의 Cascade Lake CPU를 기반으로 하는 이전 C2 VM과 비교했습니다. H3 CPU 전용 VM은 노드당 성능이 3배 더 빠르며 고객의 비용을 50% 절감할 수 있습니다.

서버 칩은 일반적으로 이전 세대 칩(이 경우 Ice Lake)을 벤치마킹하기 때문에 비교는 사과 대 사과가 아닙니다. 그러나 Google의 비교는 2~3년마다 발생하는 서버 업그레이드 주기와 더 일치합니다.

최근 Google Cloud Next 서밋에서 회사는 AI를 위한 고성능 컴퓨팅 옵션을 확장했습니다. 이 회사는 최신 TPU v5e AI 칩을 탑재한 포드를 발표하고 26,000개의 Nvidia GPU를 호스팅하고 병렬 컴퓨팅을 지원할 수 있는 A3 슈퍼컴퓨팅 시스템의 일반 가용성을 발표했습니다. 두 칩 모두 AI 애플리케이션의 훈련 및 추론을 목표로 합니다.