스토리지가 모델 교육의 주요 병목 현상이 되지 않도록 하십시오.

기술 회사들이 GPU를 위해 혈안이 되어 있거나 GPU를 획득하기 위해 노력하고 있다고 합니다.지난 4월 Tesla CEO Elon Musk는 10,000개의 GPU를 구입했으며 회사는 계속해서 NVIDIA에서 대량의 GPU를 구입할 것이라고 밝혔습니다.기업 측면에서 IT 직원은 투자 수익을 극대화하기 위해 GPU를 지속적으로 활용하도록 노력하고 있습니다.그러나 일부 회사에서는 GPU 수가 증가하는 동안 GPU 유휴 상태가 더 심각해진다는 것을 알 수 있습니다.

역사에서 고성능 컴퓨팅(HPC)에 대해 배운 것이 있다면 컴퓨팅에 너무 집중하는 비용으로 스토리지와 네트워킹을 희생해서는 안 된다는 것입니다.스토리지가 데이터를 컴퓨팅 장치로 효율적으로 전송할 수 없다면 세계에서 가장 많은 GPU를 보유하고 있어도 최적의 효율성을 달성할 수 없습니다.

Small World Big Data의 분석가인 Mike Matchett에 따르면 더 작은 모델을 메모리(RAM)에서 실행할 수 있으므로 계산에 더 집중할 수 있습니다.그러나 수십억 개의 노드가 있는 ChatGPT와 같은 더 큰 모델은 높은 비용으로 인해 메모리에 저장할 수 없습니다.

"메모리에 수십억 개의 노드를 맞출 수 없으므로 스토리지가 더욱 중요해집니다."라고 Matchett는 말합니다.안타깝게도 계획 과정에서 데이터 스토리지를 간과하는 경우가 많습니다.

일반적으로 사용 사례에 관계없이 모델 학습 프로세스에는 네 가지 공통점이 있습니다.

1. 모델 교육
2. 추론 적용
3. 데이터 저장
4. 가속 컴퓨팅

모델을 만들고 배포할 때 대부분의 요구 사항은 빠른 개념 증명(POC) 또는 테스트 환경을 우선시하여 모델 교육을 시작하며 데이터 스토리지 요구 사항은 최우선 고려 사항이 아닙니다.

그러나 문제는 교육 또는 추론 배포가 몇 달 또는 몇 년 동안 지속될 수 있다는 사실에 있습니다.많은 기업이 이 기간 동안 모델 크기를 빠르게 확장하고 인프라는 증가하는 모델과 데이터 세트를 수용할 수 있도록 확장해야 합니다.

수백만 건의 ML 교육 워크로드에 대한 Google의 연구에 따르면 교육 시간의 평균 30%가 입력 데이터 파이프라인에 소요되는 것으로 나타났습니다.과거 연구에서는 교육 속도를 높이기 위해 GPU를 최적화하는 데 중점을 두었지만 데이터 파이프라인의 다양한 부분을 최적화하는 데는 여전히 많은 과제가 남아 있습니다.상당한 계산 능력이 있는 경우 실제 병목 현상은 결과를 얻기 위해 계산에 데이터를 얼마나 빨리 공급할 수 있는지에 달려 있습니다.

특히, 데이터 저장 및 관리의 문제는 데이터 증가에 대한 계획이 필요하며, 특히 딥 러닝 및 신경망과 같은 고급 사용 사례에 도전할 때 진행하면서 데이터의 가치를 지속적으로 추출할 수 있도록 합니다. 용량, 성능 및 확장성 측면에서 스토리지.

특히:

확장성
머신 러닝은 방대한 양의 데이터를 처리해야 하며 데이터 양이 증가할수록 모델의 정확도도 향상됩니다.이는 기업이 매일 더 많은 데이터를 수집하고 저장해야 함을 의미합니다.스토리지를 확장할 수 없는 경우 데이터 집약적 워크로드로 인해 병목 현상이 발생하여 성능이 제한되고 GPU 유휴 시간에 비용이 많이 듭니다.

유연성
단일 유형의 환경에 국한되지 않고 다양한 시스템의 요구 사항을 충족하려면 여러 프로토콜(NFS, SMB, HTTP, FTP, HDFS 및 S3 포함)에 대한 유연한 지원이 필요합니다.

지연 시간
I/O 대기 시간은 데이터를 여러 번 읽고 다시 읽기 때문에 모델을 구축하고 사용하는 데 중요합니다.I/O 대기 시간을 줄이면 모델 학습 시간을 며칠 또는 몇 달 단축할 수 있습니다.더 빠른 모델 개발은 더 큰 비즈니스 이점으로 직결됩니다.

처리량
스토리지 시스템의 처리량은 효율적인 모델 교육에 매우 중요합니다.교육 프로세스에는 일반적으로 시간당 테라바이트에 해당하는 많은 양의 데이터가 포함됩니다.

병렬 액세스
높은 처리량을 달성하기 위해 교육 모델은 활동을 여러 병렬 작업으로 분할합니다.이것은 종종 기계 학습 알고리즘이 여러 프로세스(잠재적으로 여러 물리적 서버에서)의 동일한 파일에 동시에 액세스한다는 것을 의미합니다.스토리지 시스템은 성능 저하 없이 동시 요구를 처리해야 합니다.

낮은 대기 시간, 높은 처리량 및 대규모 병렬 I/O의 뛰어난 기능을 갖춘 Dell PowerScale은 GPU 가속 컴퓨팅을 보완하는 이상적인 스토리지입니다.PowerScale은 멀티 테라바이트 데이터 세트를 교육하고 테스트하는 분석 모델에 필요한 시간을 효과적으로 줄여줍니다.PowerScale 올플래시 스토리지에서 대역폭은 18배 증가하여 I/O 병목 현상을 제거하고 기존 Isilon 클러스터에 추가하여 대량의 비정형 데이터의 가치를 가속화하고 활용할 수 있습니다.

또한 PowerScale의 다중 프로토콜 액세스 기능은 워크로드 실행을 위한 무제한의 유연성을 제공하여 하나의 프로토콜을 사용하여 데이터를 저장하고 다른 프로토콜을 사용하여 액세스할 수 있도록 합니다.특히 PowerScale 플랫폼의 강력한 기능, 유연성, 확장성 및 엔터프라이즈급 기능은 다음 과제를 해결하는 데 도움이 됩니다.

- 최대 2.7배까지 혁신을 가속화하여 모델 교육 주기를 단축합니다.

- 엔터프라이즈급 기능, 고성능, 동시성 및 확장성을 활용하여 I/O 병목 현상을 제거하고 더 빠른 모델 교육 및 검증, 향상된 모델 정확도, 향상된 데이터 과학 생산성 및 컴퓨팅 투자 수익 극대화를 제공합니다.단일 클러스터에서 최대 119PB의 유효 스토리지 용량을 활용하여 더 깊고 더 높은 해상도의 데이터 세트로 모델 정확도를 향상합니다.

- 소규모로 시작하고 컴퓨팅 및 스토리지를 독립적으로 확장하여 강력한 데이터 보호 및 보안 옵션을 제공하여 대규모 배포를 달성합니다.

- 더 빠르고 위험도가 낮은 배포를 위해 현장 분석 및 사전 검증된 솔루션으로 데이터 과학 생산성을 향상시킵니다.

- NVIDIA DGX 시스템을 사용한 NVIDIA GPU 가속 및 참조 아키텍처를 포함하여 동종 최고의 기술을 기반으로 입증된 설계를 활용합니다.PowerScale의 고성능 및 동시성은 데이터 수집 및 준비에서 모델 교육 및 추론에 이르기까지 기계 학습의 모든 단계에서 스토리지 성능 요구 사항을 충족합니다.OneFS 운영 체제와 함께 모든 노드는 성능 관리, 데이터 관리, 보안 및 데이터 보호와 같은 엔터프라이즈급 기능을 통해 동일한 OneFS 기반 클러스터 내에서 원활하게 작동할 수 있으므로 비즈니스를 위한 모델 교육 및 검증을 더 빠르게 완료할 수 있습니다.


게시 시간: 2023년 7월 03일