NVL72
-
H100 vs GB200 NVL72 학습 벤치마크 – 전력, TCO 및 신뢰성 분석, 시간 경과에 따른 소프트웨어 개선 (25.8.22)TechStock&Review/AI&Cloud&SW 2025. 8. 22. 08:31
H100 vs GB200 NVL72 학습 벤치마크 – 전력, TCO 및 신뢰성 분석, 시간 경과에 따른 소프트웨어 개선 프론티어 모델 학습은 GPU와 AI 시스템을 한계에 몰아넣었고, 비용, 효율성, 전력 소비, TCO 대비 성능, 그리고 안정성이 효과적인 학습 논의의 핵심이 되었습니다. Hopper와 Blackwell의 비교는 엔비디아가 생각하는 것만큼 간단하지 않습니다. 이 보고서에서는 2,000개 이상의 H100 GPU에 대한 벤치마크 실행 결과를 제시하고, Model Flops Utilization(MFU), 총 소유 비용(Total Cost of Ownership / TCO), 그리고 100만 토큰당 학습 비용 데이터를 분석합니다. 또한 에너지 사용량에 대해 논의하고, 학습된 각 토큰에 소비된 ..