AI 워크로드를 위한 NAS

2022. 9. 2. 12:40IT/Storage

NFS(네트워크 파일 시스템) VS 병렬 파일 시스템

네트워크 파일 시스템 은 네트워크 속도가 느리고 스토리지 시스템의 성능이 네트워크 링크가 제공할 수 있는 것보다 훨씬 더 뛰어난 1984년에 실제로 도입되었습니다. 소프트웨어 스택은 비효율적이었지만 네트워크가 병목 현상이었기 때문에 문제가 되지 않았습니다. 이제 수십 년이 지났고 오늘날의 AI 요구 워크로드를 지원하는 데 적합하지 않습니다. NFS ( Network File System) 프로토콜 은 단일 네트워크 링크에서 최대 1.2GB/초를 제공할 수 있으며, 이는 Gbit 네트워킹까지의 네트워크보다 성능이 뛰어납니다. 그러나 컴퓨팅, 스토리지 및 네트워킹(이더넷 및 InfiniBand 모두)에서 엄청난 발전을 확인했으며 대규모 네트워크 파이프를 지원하는 것이 매우 비용 효율적이지만 동일한 이전 NFS 소프트웨어 스택이 스토리지와 컴퓨팅 간의 통신을 관리하고 있습니다.

NFS 소프트웨어 스택과 관련된 문제를 살펴보겠습니다. 스토리지와 컴퓨팅 인프라 사이에서 이동하는 데이터는 러시아워에 많은 객차가 있는 역으로 들어가는 통근 열차와 같으며, 열차 차량은 NFS 어플라이언스 노드를 나타냅니다. 그러나 열차의 문은 하나만 열 수 있으며 그 문은 NFS 파일러 헤드(컨트롤러)를 나타냅니다.

이제 기차에서 내리는 승객은 모든 객차와 단일 파일러를 통과해야 하는 반면 기차를 타는 승객은 단일 문을 통해 기차에서 내리는 승객으로 인해 병목 현상이 발생합니다.

이 단일 도어는 NFS NAS의 견고한 설계를 나타냅니다. 모든 승객은 데이터이며 NFS 프로토콜 설계의 데이터 병목 현상입니다.

이제 다른 시나리오를 상상해 보십시오. 동일한 열차가 역에 들어왔으나 이번에는 모든 객차의 모든 문이 동시에 열리면 승객은 단일 객차를 통해 병목 현상 없이 자신의 객차로 기차를 타고 내릴 수 있습니다. 문. 이것이 NFS  병렬 파일 시스템 의 근본적인 차이점 입니다. 병렬 파일 시스템은 더 많은 노드(기차 객차)가 추가됨에 따라 계속 확장되지만 NFS는 항상 단일 노드로 제한됩니다.

병렬 파일 시스템 및 AI 워크로드

성공적인 AI 결과는 3가지 핵심 기술에 따라 달라집니다.

  • GPU 및 FPGA와 같은 컴퓨팅 가속기
  • 100Gbit 이더넷 또는 200Gbit InfiniBand와 같은 고속 네트워크
  • 고도의 병렬 방식으로 데이터를 이동하고 관리하는 최신 파일 시스템

AI 데이터 파이프라인 내의 여러 단계 에는 방대한 수집 대역폭에 대한 고유한 스토리지 요구 사항이 있으며, 혼합 읽기/쓰기 처리 및 초저 대기 시간이 필요하므로 각 단계에 대해 스토리지 사일로가 발생하는 경우가 많습니다. 이는 비즈니스 및 IT 리더가 스토리지 스택을 설계하는 방법을 재고하고 이러한 새로운 워크로드에 대한 구매 결정을 내려야 함을 의미합니다.

최신 세대 GPU 기반 서버는 단일 시스템에 대해 최대 800Gbit의 네트워킹을 지원합니다. 이 8개의 네트워크 링크는 스토리지 시스템에서 GPU 서버까지 초당 80GB 이상의 대역폭을 지원할 수 있습니다. NFS 프로토콜은 여전히 ​​1.2GBytes/second/네트워크 링크로 제한되어 사용 가능한 대역폭의 80%를 사용하지 않습니다. 궁극적으로 이는 많은 양의 데이터를 읽어야 하는 GPU 워크로드에 대한 I/O 기아 상태로 해석됩니다.

최신 파일 시스템의 요구 사항

최신 파일 시스템은 기계 학습, 시각화, 추론 및 실시간 모니터링과 같은 신흥 영역에서 발견되는 I/O 및 메타데이터 집약적 워크로드에 필요한 성능을 제공해야 합니다. 잘 설계된 최신 파일 시스템의 주요 특징은 다음과 같습니다.

  • 클러스터의 모든 노드가 데이터 파이프 공급에 참여할 수 있도록 완전히 분산된 데이터 및 메타데이터(기차 비유 기억)
  • 대규모 병렬 처리를 통해 100Gbit 이더넷 및 200Gbit InfiniBand를 포함한 고속 네트워킹을 포화시키는 기능
  • GPU 서버를 완전히 포화시키는 Nvidia® GPUDirect® 스토리지와 같은 최신 프로토콜 지원
  • 컴퓨팅 수요가 증가함에 따라 성능을 선형적으로 확장하는 기능
  • 기하급수적인 데이터 증가를 쉽게 수용할 수 있도록 성능과 독립적으로 용량을 확장할 수 있는 기능
  • 퍼블릭 클라우드에서 탄력성을 컴퓨팅할 수 있는 클라우드