모델 학습에서 스토리지가 주요 병목 현상이 되지 않도록 하세요

기술 회사들이 GPU를 찾기 위해 안간힘을 쓰고 있거나 GPU를 인수하는 과정에 있다고 합니다. 지난 4월 Tesla CEO Elon Musk는 10,000개의 GPU를 구입했으며 회사는 NVIDIA로부터 계속해서 대량의 GPU를 구입할 것이라고 밝혔습니다. 기업 측면에서도 IT 인력은 투자 수익을 극대화하기 위해 GPU를 지속적으로 활용하기 위해 열심히 노력하고 있습니다. 그러나 일부 회사에서는 GPU 수가 증가함에 따라 GPU 유휴 상태가 더욱 심각해지는 것을 발견할 수 있습니다.

역사가 우리에게 고성능 컴퓨팅(HPC)에 대해 가르쳐준 것이 있다면, 계산에 너무 집중하는 대신 스토리지와 네트워킹을 희생해서는 안 된다는 것입니다. 스토리지가 효율적으로 데이터를 컴퓨팅 장치로 전송할 수 없다면, 세계에서 가장 많은 GPU를 보유하더라도 최적의 효율성을 달성할 수 없습니다.

Small World Big Data의 분석가인 Mike Matchett에 따르면 더 작은 모델을 메모리(RAM)에서 실행할 수 있으므로 계산에 더 집중할 수 있습니다. 그러나 수십억 개의 노드가 있는 ChatGPT와 같은 대규모 모델은 높은 비용으로 인해 메모리에 저장할 수 없습니다.

Matchett는 “메모리에 수십억 개의 노드를 수용할 수 없으므로 스토리지가 더욱 중요해집니다.”라고 말했습니다. 불행하게도 데이터 저장은 계획 과정에서 간과되는 경우가 많습니다.

일반적으로 사용 사례에 관계없이 모델 학습 프로세스에는 다음과 같은 4가지 공통점이 있습니다.

1. 모델 훈련
2. 추론 적용
3. 데이터 저장
4. 가속 컴퓨팅

모델을 생성하고 배포할 때 대부분의 요구 사항은 모델 교육을 시작하기 위한 빠른 개념 증명(POC) 또는 테스트 환경을 우선시하며 데이터 저장 요구 사항은 최우선적으로 고려되지 않습니다.

그러나 문제는 훈련이나 추론 배포가 몇 달 또는 몇 년 동안 지속될 수 있다는 것입니다. 많은 기업에서는 이 기간 동안 모델 크기를 빠르게 확장하고, 증가하는 모델과 데이터 세트를 수용할 수 있도록 인프라를 확장해야 합니다.

수백만 개의 ML 교육 워크로드에 대한 Google의 연구에 따르면 교육 시간의 평균 30%가 입력 데이터 파이프라인에 소요되는 것으로 나타났습니다. 과거 연구에서는 훈련 속도를 높이기 위해 GPU를 최적화하는 데 중점을 두었지만 데이터 파이프라인의 다양한 부분을 최적화하는 데는 여전히 많은 과제가 남아 있습니다. 상당한 계산 능력이 있는 경우 실제 병목 현상은 결과를 얻기 위해 계산에 데이터를 얼마나 빨리 공급할 수 있는지에 달려 있습니다.

특히, 데이터 저장 및 관리의 과제에는 데이터 증가에 대한 계획이 필요합니다. 이를 통해 진행하면서 데이터의 가치를 지속적으로 추출할 수 있습니다. 특히 딥 러닝 및 신경망과 같은 고급 사용 사례에 도전할 때 더욱 그렇습니다. 용량, 성능, 확장성 측면에서 스토리지를 선택하세요.

특히:

확장성
머신러닝을 위해서는 방대한 양의 데이터를 처리해야 하며, 데이터의 양이 증가할수록 모델의 정확도도 향상됩니다. 이는 기업이 매일 더 많은 데이터를 수집하고 저장해야 함을 의미합니다. 스토리지를 확장할 수 없으면 데이터 집약적인 워크로드로 인해 병목 현상이 발생하여 성능이 제한되고 결과적으로 GPU 유휴 시간이 발생하게 됩니다.

유연성
단일 유형의 환경에 국한되지 않고 다양한 시스템의 요구 사항을 충족하려면 여러 프로토콜(NFS, SMB, HTTP, FTP, HDFS 및 S3 포함)에 대한 유연한 지원이 필요합니다.

숨어 있음
데이터가 여러 번 읽고 다시 읽혀지기 때문에 I/O 대기 시간은 모델을 구축하고 사용하는 데 매우 중요합니다. I/O 대기 시간을 줄이면 모델 교육 시간을 며칠 또는 몇 달 단축할 수 있습니다. 더 빠른 모델 개발은 직접적으로 더 큰 비즈니스 이점으로 이어집니다.

처리량
스토리지 시스템의 처리량은 효율적인 모델 교육에 매우 중요합니다. 학습 프로세스에는 일반적으로 시간당 테라바이트 단위의 대용량 데이터가 포함됩니다.

병렬 액세스
높은 처리량을 달성하기 위해 훈련 모델은 활동을 여러 병렬 작업으로 분할합니다. 이는 종종 기계 학습 알고리즘이 여러 프로세스(잠재적으로 여러 물리적 서버에 있음)의 동일한 파일에 동시에 액세스한다는 것을 의미합니다. 스토리지 시스템은 성능 저하 없이 동시 수요를 처리해야 합니다.

짧은 대기 시간, 높은 처리량, 대규모 병렬 I/O 등 뛰어난 기능을 갖춘 Dell PowerScale은 GPU 가속 컴퓨팅을 보완하는 이상적인 스토리지입니다. PowerScale은 테라바이트급 데이터 세트를 훈련하고 테스트하는 분석 모델에 필요한 시간을 효과적으로 줄여줍니다. PowerScale 올플래시 스토리지에서는 대역폭이 18배 증가하여 I/O 병목 현상이 제거되고 기존 Isilon 클러스터에 추가되어 대량의 비정형 데이터의 가치를 가속화하고 활용할 수 있습니다.

또한 PowerScale의 다중 프로토콜 액세스 기능은 워크로드 실행에 무제한의 유연성을 제공하므로 하나의 프로토콜을 사용하여 데이터를 저장하고 다른 프로토콜을 사용하여 액세스할 수 있습니다. 특히 PowerScale 플랫폼의 강력한 기능, 유연성, 확장성 및 엔터프라이즈급 기능은 다음 과제를 해결하는 데 도움이 됩니다.

- 혁신을 최대 2.7배 가속화하여 모델 훈련 주기를 단축합니다.

- 엔터프라이즈급 기능, 고성능, 동시성 및 확장성을 활용하여 I/O 병목 현상을 제거하고 더 빠른 모델 교육 및 검증, 향상된 모델 정확도, 향상된 데이터 과학 생산성, 컴퓨팅 투자 수익 극대화를 제공합니다. 단일 클러스터에서 최대 119PB의 유효 스토리지 용량을 활용하여 더 심층적이고 고해상도의 데이터세트로 모델 정확도를 향상하세요.

- 소규모로 시작하여 컴퓨팅 및 스토리지를 독립적으로 확장하고 강력한 데이터 보호 및 보안 옵션을 제공하여 대규모 배포를 달성합니다.

- 더 빠르고 위험도가 낮은 배포를 위한 내부 분석 및 사전 검증된 솔루션을 통해 데이터 과학 생산성을 향상합니다.

- NVIDIA DGX 시스템을 갖춘 NVIDIA GPU 가속 및 참조 아키텍처를 포함하여 동종 최고의 기술을 기반으로 입증된 디자인을 활용합니다. PowerScale의 높은 성능과 동시성은 데이터 수집 및 준비부터 모델 교육 및 추론에 이르기까지 기계 학습의 모든 단계에서 스토리지 성능 요구 사항을 충족합니다. OneFS 운영 체제와 함께 모든 노드는 성능 관리, 데이터 관리, 보안, 데이터 보호와 같은 엔터프라이즈급 기능을 통해 동일한 OneFS 기반 클러스터 내에서 원활하게 작동할 수 있으므로 비즈니스에 대한 모델 교육 및 검증을 더 빠르게 완료할 수 있습니다.


게시 시간: 2023년 7월 3일