[2023년 7월 14일 중국 선전] 화웨이는 오늘 대규모 모델 시대를 위한 새로운 AI 스토리지 솔루션을 공개해 기본 모델 훈련, 산업별 모델 훈련, 세분화된 시나리오 추론을 위한 최적의 스토리지 솔루션을 제공하고 있다. 새로운 AI 역량을 발휘합니다.
대규모 모델 애플리케이션을 개발하고 구현하는 과정에서 기업은 다음과 같은 네 가지 주요 과제에 직면합니다.
첫째, 데이터 준비에 소요되는 시간이 길고, 데이터 소스가 분산되어 있고, 집계가 느려 수백 테라바이트의 데이터를 전처리하는 데 약 10일이 소요됩니다. 둘째, 대용량 텍스트 및 이미지 데이터 세트가 있는 다중 모드 대형 모델의 경우 현재 대용량 소형 파일의 로딩 속도가 100MB/s 미만이므로 학습 세트 로딩 효율성이 낮습니다. 셋째, 불안정한 훈련 플랫폼과 함께 대형 모델에 대한 빈번한 매개변수 조정으로 인해 약 2일마다 훈련이 중단되어 훈련을 재개하려면 Checkpoint 메커니즘이 필요하며 복구에는 하루 이상이 걸립니다. 마지막으로, 대규모 모델, 복잡한 시스템 설정, 리소스 예약 문제 및 GPU 리소스 활용도에 대한 높은 구현 임계값은 종종 40% 미만입니다.
화웨이는 대형 모델 시대의 AI 개발 추세에 맞춰 다양한 산업과 시나리오에 맞는 솔루션을 제공하고 있습니다. OceanStor A310 딥 러닝 데이터 레이크 스토리지와 FusionCube A3000 교육/추론 슈퍼 컨버지드 어플라이언스를 소개합니다. OceanStor A310 딥 러닝 데이터 레이크 스토리지는 기본 및 업계 수준의 대규모 모델 데이터 레이크 시나리오를 모두 대상으로 하며 데이터 집계, 전처리, 모델 교육 및 추론 애플리케이션에서 포괄적인 AI 데이터 관리를 달성합니다. 단일 5U 랙에 있는 OceanStor A310은 업계 최고의 400GB/s 대역폭과 최대 1,200만 IOPS를 지원하며 최대 4096개 노드까지 선형 확장이 가능하여 원활한 프로토콜 간 통신이 가능합니다. GFS(글로벌 파일 시스템)는 여러 지역에 걸친 지능적인 데이터 위빙을 촉진하여 데이터 집계 프로세스를 간소화합니다. 근거리 스토리지 컴퓨팅은 근거리 데이터 전처리를 실현하여 데이터 이동을 줄이고 전처리 효율성을 30% 향상시킵니다.
업계 수준의 대규모 모델 훈련/추론 시나리오를 위해 설계된 FusionCube A3000 훈련/추론 슈퍼 컨버지드 어플라이언스는 수십억 개의 매개변수가 있는 모델과 관련된 애플리케이션에 적합합니다. OceanStor A300 고성능 스토리지 노드, 훈련/추론 노드, 스위칭 장비, AI 플랫폼 소프트웨어, 관리 및 운영 소프트웨어를 통합하여 대규모 모델 파트너에게 원스톱 제공을 위한 플러그 앤 플레이 배포 경험을 제공합니다. 사용 준비가 완료되면 2시간 이내에 배포할 수 있습니다. 훈련/추론 및 저장 노드는 모두 다양한 모델 규모 요구 사항에 맞게 독립적으로 수평적으로 확장될 수 있습니다. 한편, FusionCube A3000은 고성능 컨테이너를 활용하여 여러 모델 훈련 및 추론 작업을 통해 GPU를 공유함으로써 리소스 활용도를 40%에서 70% 이상으로 높입니다. FusionCube A3000은 Huawei Ascend 원스톱 솔루션과 개방형 컴퓨팅, 네트워킹 및 AI 플랫폼 소프트웨어를 갖춘 타사 파트너 원스톱 솔루션이라는 두 가지 유연한 비즈니스 모델을 지원합니다.
화웨이 데이터 스토리지 제품 라인 사장 Zhou Yuefeng은 “대형 모델 시대에는 데이터가 AI 지능의 높이를 결정합니다. 데이터 전달자로서 데이터 스토리지는 AI 대규모 모델의 핵심 기반 인프라가 됩니다. 화웨이 데이터 스토리지는 AI 대형 모델 시대를 위한 다양한 솔루션과 제품을 제공하고 파트너와 협력하여 광범위한 산업 전반에 걸쳐 AI 역량 강화를 추진하는 등 혁신을 이어갈 것입니다.”
게시 시간: 2023년 8월 1일