Norway's 2 petabytes of Huawei flash storage and LLM training

개요

노르웨이 국립 도서관은 노르웨이어를 이해하는 대규모 언어 모델(LLM) 개발을 위해 2PB의 화웨이 OceanStor Dorado 플래시 스토리지를 AI 학습 데이터 파이프라인에 활용하고 있다.

주요 내용

* 주권 LLM의 필요성: 노르웨이 문화부는 국립 도서관에 자국 언어 기반의 주권 AI(LLM) 구축을 임무로 부여했다. 상업적인 LLM 제공업체들이 노르웨이어 LLM을 개발하지 않으며, 자국 언어로 학습되지 않은 LLM은 해당 국가의 역사, 뉴스, 문화를 제대로 반영하지 못해 불이익을 초래할 수 있다.
* 데이터 수집 및 관리: 국립 도서관은 노르웨이의 가장 큰 디지털 자료 컬렉션(책, 신문, 웹페이지 등)을 보유하고 있으며, 2005년부터 디지털화 작업을 진행하여 20PB의 고유 데이터를 3-2-1 형식(3개 복사본, 2개 미디어 유형, 1개 오프사이트)으로 총 60PB를 축적했다.
* AI 학습 데이터 파이프라인: LLM 학습을 위한 데이터 파이프라인은 데이터 수집, 정제, 중복 제거, 형식 표준화, 검증 및 준비 단계를 포함한다.
* 인프라 구성: 데이터 파이프라인에는 2PB 용량의 화웨이 OceanStor Dorado 올플래시 어레이와 Nvidia DGX H200 시스템, 384코어 CPU 클러스터가 사용되어 데이터 파이프라인 및 학습 준비를 위한 저지연 스토리지를 제공한다.
* 실제 학습: 파이프라인을 통과한 데이터는 노르웨이 국가 슈퍼컴퓨터인 Sigma2 Olivia 시스템(HPE Cray Supercomputing EX 시스템, 448개의 GPU 및 64,512개의 CPU 코어, 5.3PB Cray ClusterStor E1000 스토리지 시스템)으로 전송되어 실제 학습이 이루어진다.
* 스토리지 과제: 60PB의 보존 시스템(내구성과 비용 최적화, 높은 읽기 지연 시간)과 AI 파이프라인 스토리지(고처리량, 저지연, 병렬 데이터 IO 최적화)라는 서로 다른 두 가지 스토리지 시스템 간의 데이터 이동에 대한 문제 해결이 주요 과제였다. PB 규모의 데이터셋을 아카이브에서 AI 데이터 파이프라인으로 이동하고 처리하는 방법에 대한 자체적인 연구가 필요했다.
* 현재 진행 중인 학습 과제:
* 평가: 주권 노르웨이어 LLM을 평가할 표준 도구가 부족하여 자체 평가 도구를 개발 중이다. 노르웨이어는 두 가지 작문 형태, 여러 방언, 역사적 변화를 가지고 있다.
* 거버넌스: 주권 LLM에 대한 접근 권한을 누가 통제하고, 무엇에 사용할지 결정하는지에 대한 제도적, 정치적 질문에 대한 답을 찾아야 한다.
* 오케스트레이션: 보존 아카이브, 온프레미스 AI 환경, 국가 슈퍼컴퓨터인 Sigma2를 원활하게 통합하는 프로젝트가 진행 중이다.

시사점

화웨이 스토리지는 유럽 시장에서 중요한 역할을 하고 있으며, 자국 언어 기반의 주권 LLM을 개발하려는 국가는 데이터 이동 및 통합과 같은 기술적, 제도적 과제에 대한 경험을 공유받는 것이 유익할 것이다. AI는 단순히 구축하는 것을 넘어, 각 언어와 문화, 역사를 반영하도록 관리하는 '수호자'가 필요하다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions