ML커먼스(MLCommons)가 60억 개의 파라미터를 가진 대규모 언어 모델인 GPT-J를 포함, 컴퓨터 비전 및 자연어 처리 모델에 대한 ‘MLPerf 추론(MLPerf Inference) 3.1’ 결과를 발표했다.

인텔은 하바나 가우디 2 가속기, 4세대 인텔 제온 스케일러블 프로세서, 인텔 제온 CPU 맥스 시리즈 제품의 성능 측정 결과를 제출했다. 인텔은 이를 통해 AI 추론 분야에서 인텔이 가진 경쟁력은 물론, 클라이언트 및 엣지부터 네트워크와 클라우드까지 AI 워크로드 전반에서 다양한 규모 별 AI 접근성을 향상하고자 하는 노력을 선보였다.

▲ 인텔 하바나 가우디 2 가속기
▲ 인텔 하바나 가우디 2 가속기

이번 발표는 지난 6월 가우디 2 제품이 최신 비전 언어 모델에서 엔비디아(Nvidia)의 H100의 성능을 능가할 수 있다는 ML커먼스의 AI 학습 결과 및 허깅페이스(Hugging Face) 성능 결과의 연장선이다. 또한 인텔이 AI 컴퓨팅 요구를 충족하기 위해 엔비디아 H100 및 A100 제품의 유일한 대안을 제공한다는 것을 강조하는 결과이다.

소비자는 각자 고려해야 하는 부분이 다르며 인텔은 AI 워크로드 전반에서 추론 및 학습을 다룰 수 있는 제품을 통해 어떤 용도에서나 AI를 구현하도록 지원한다. 인텔의 AI 제품은 고객이 성능, 효율성 및 비용 목표에 따라 최적의 AI 솔루션을 선택할 때 유연성과 선택권을 제공하며, 동시에 폐쇄된 생태계에서 벗어날 수 있도록 돕는다.

하바나 가우디2의 GPT-J 추론 성능 결과는 경쟁력 있는 성능을 확실하게 입증했다.

- GPT-J-99 및 GPT-J-99.9에 대한 가우디2 추론 성능은 각 서버 쿼리에 대해 초당 78.58회 및 오프라인 샘플에 대해 초당 84.08회를 기록했다.

- 가우디2, 엔비디아 H100 대비 준수한 성능을 제공한다 H100의 경우, 가우디2 대비 서버 모드에서 약 9%, 오프라인 모드에서 약 28% 높은 성능을 제공하는 등 약간의 우위를 보여주었다.

- 가우디2는 엔비디아 A100 대비 서버 모드에서 2.4배, 오프라인 모드에서 2배 높은 성능을 제공한다.

- 가우디2 성능은 FP8을 사용해 신규 데이터 유형에서 99.9%의 정확도를 달성했다.

 

인텔은 매 6주에서 8주마다 출시되는 가우디 2 소프트웨어 업데이트를 통해 MLPerf 벤치마크에서 성능 향상과 확장된 모델 범위를 지속적으로 제공할 예정이다.

▲ 4세대 인텔 제온 스케일러블 프로세서
▲ 4세대 인텔 제온 스케일러블 프로세서

한편 인텔은 4세대 인텔 제온 스케일러블 프로세서에서 GPT-J를 포함한 일곱 가지 추론 벤치마크 결과를 모두 제출했다. 이러한 결과는 비전, 언어 처리, 음성 및 오디오 번역 모델을 비롯해 다양한 일반 AI 워크로드 및 훨씬 더 큰 DLRM v2 추천 및 챗GPT-J 모델과 같은 큰 모델에 대한 우수한 성능을 보여준다. 더불어 인텔은 여전히 산업 표준 딥 러닝 생태계 소프트웨어를 사용해 공개 CPU 결과를 제출하는 유일한 업체이기도 하다.

- 4세대 인텔 제온 스케일러블 프로세서는 가장 인기 있는 AI 프레임워크와 라이브러리를 사용해 일반적인 AI 워크로드를 구축하고 배포하는 데 이상적이다. 4세대 인텔 제온 프로세서는 약 1,000개~1,500 단어 길이의 뉴스 기사를 GPT-J 100단어 요약 작업에서 오프라인 모드에서 초당 두 개의 단락을 요약하고 실시간 서버 모드에서 초당 한 개의 단락을 요약했다.

- 인텔은 처음으로 인텔 제온 CPU 맥스 시리즈에 대한 MLPerf 결과를 제출했으며, 최대 64GB의 고대역폭 메모리를 제공한다. GPT-J의 경우, CPU가 99.9% 정확도를 달성할 수 있는 유일한 CPU로 최고 정확도가 핵심 성능 요건인 응용 프로그램에 중요한 역할을 한다.

- 인텔은 OEM 고객이 직접 결과를 제출할 수 있도록 OEM과 협력했다. 이를 통해 인텔은 고객 서비스 수준 협약(SLA)을 충족할 수 있는 인텔 제온 프로세서 기반 범용 서버의 AI 성능 확장성과 폭넓은 가용성을 선보였다.

 

일반적으로 AI 성능을 평가하는 가장 신뢰할 만한 지표인 MLPerf는 공정하고 반복 가능한 성능 비교를 가능하게 한다. 인텔은 다음 MLPerf 벤치마크에서 새로운 AI 트레이닝 성능 결과를 제출할 예정이다. 지속적인 성능 업데이트는 AI 연속체의 모든 요소, 저비용 AI 프로세서부터 네트워크, 클라우드 및 엔터프라이즈 고객을 위한 최고 성능의 AI 하드웨어 가속기 및 GPU까지 포함해 고객을 지원하기 위한 인텔의 노력의 결과물이다.

관련기사

저작권자 © 맨즈랩 무단전재 및 재배포 금지