ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 화웨이 AI CloudMatrix 384 - 엔비디아 GB200 NVL72 에 대한 중국의 대답 (25.5.7)
    TechStock&Review/AI&Cloud&SW 2025. 5. 7. 20:45

    화웨이 AI CloudMatrix 384 - 엔비디아 GB200 NVL72 에 대한 중국의 대답

    화웨이는 새로운 AI 가속기와 랙 스케일 아키텍처로 큰 반향을 일으키고 있습니다. Ascend 910C를 기반으로 제작된 중국 최신의 가장 강력한 중국내 솔루션인 CloudMatrix 384를 확인해보면 이 솔루션은 GB200 NVL72와 직접 경쟁하며, 일부 측면에서는 엔비디아의 랙 스케일 솔루션보다 더 발전했습니다. 엔지니어링의 강점은 칩 수준뿐 아니라 시스템 수준에서 네트워킹, 광학 및 소프트웨어 layer 의 혁신을 통해 발휘되었습니다.

     

    출처: 화웨이

     

    📌 참고:
    异构服务器                                         超节点网络交换机                           异构服务器  
    (이기종 서버)                                      (슈퍼 노드 네트워크 스위치)              (이기종 서버) 
                                                              6912个400G光模块
                                                              (6912개의 400G 광 모듈)
    2.8TBps卡间互联网带宽                  内存池化,统一编址                          UB统一通信协议
    (2.8TBps 카드 간 인터넷 대역폭)        (메모리 풀링, 통합 주소 지정)             (UB 통합 통신 프로토콜)

     

    SemiAnalysis에 따르면 Huawei Ascend 칩은 새로운 것이 아니지만, 마이크로아키텍처보다 시스템이 더 중요한 세상 에서 Huawei는 AI 시스템 성능의 한계를 뛰어넘고 있습니다. 물론 장단점이 있지만, 수출 통제와 부진한 국내 생산량을 고려하면 중국의 수출 통제에는 더 많은 허점이 있다는 것이 분명합니다.

     

    https://semianalysis.com/2023/04/12/google-ai-infrastructure-supremacy/

     

    Google AI Infrastructure Supremacy: Systems Matter More Than Microarchitecture

    From DLRM to LLM, internal workloads win, but how does Google fare in external workloads?The dawn of the AI era is here, and it is crucial to understand that the cost structure of AI-driven softwar…

    semianalysis.com

     

    Ascend 칩은 SMIC에서 제작할 수 있지만, 이 칩은 한국의 HBM , TSMC의 1차 웨이퍼 생산 , 그리고 미국, 네덜란드, 일본의 수백억 대 웨이퍼 제조 장비 를 통해 생산되는 글로벌 칩입니다 . 중국 국내 생산 가능성, 수출 통제의 적극적인 회피 방안, 그리고 미국 정부가 중국의 AI 역량을 제한하기 위해 이러한 핵심 신규 분야에 집중해야 하는 이유를 심층적으로 분석합니다.

     

    https://semianalysis.com/2024/10/28/fab-whack-a-mole-chinese-companies/

     

    Fab Whack-A-Mole: Chinese Companies are Evading U.S. Sanctions

    Huawei Fab Network, WFE Vendors Cry Wolf, Framework for Future Controls AI competitiveness is a key national security concern. When “expert-level science and engineering” or even AGI are possible o…

    semianalysis.com

     

    화웨이는 칩 분야에서는 한 세대 뒤처져 있지만, 스케일업 솔루션은 엔비디아와 AMD의 기존 제품보다 한 세대 앞선 것으로 평가됩니다. 그렇다면 화웨이 CloudMatrix 384(CM384)의 사양은 어떻게 될까요?

     

    CloudMatrix 384는 384개의 Ascend 910C 칩이 all-to-all 토폴로지로 연결되어 있습니다. 단점은 간단합니다. Ascend 칩을 5배 더 많이 탑재하더라도 각 GPU의 성능은 Nvidia Blackwell의 3분의 1에 불과합니다.

     

    출처: SemiAnalysis, Nvidia, Huawei

     

    완전한 CloudMatrix 시스템은 이제 300 PFLOP의 고밀도 BF16 컴퓨팅을 제공할 수 있으며, 이는 GB200 NVL72의 거의 두 배에 달합니다 . 3.6배 이상의 총 메모리 용량 과 2.1배 더 넓은 메모리 대역폭을 통해 화웨이와 중국은 이제 엔비디아를 능가하는 AI 시스템 역량을 갖추게 되었습니다.

    게다가 CM384는 중국의 독특한 강점을 활용하여 중국내 네트워킹 생산, 네트워크 장애를 방지하는 인프라 소프트웨어, 추가적인 수율 개선을 통해 더욱 큰 도메인으로 확장할 수 있는 능력을 보유하고 있습니다.

    여기서 단점은 GB200 NVL72보다 전력이 4.1 배 더 많이 소모되고 , FLOP당 전력이 2.5배 , TB/s 메모리 대역폭당 전력이 1.9배, HBM 메모리의 TB 용량당 전력이 1.2배 더 나쁘다는 것입니다.


    하지만 과도한 전력 소모에 따른 전력 부족 관련 사항은 중국 내에서는 큰 이슈가 되지 않습니다. 

     

    China has No Power Constraints, just Silicon Constraints - 중국은 전력 제한은 없지만 실리콘 제한은 이슈사항

    서방 사회에서는 AI의 전력이 제한적이라는 말이 흔히 나오지만 , 중국에서는 정반대입니다. 서방 사회는 지난 10년간 석탄 기반 전력 인프라를 친환경 천연가스 및 재생에너지 발전으로 전환하고, 1인당 에너지 사용 효율을 높이는 데 주력해 왔습니다. 하지만 중국에서는 정반대입니다. 생활 수준이 높아지고 투자가 지속적으로 증가하면서 전력 수요가 급증하고 있기 때문입니다.

     

    출처: SemiAnalysis Datacenter Model

     

    이 중 대부분은 석탄으로 가동되어 왔지만, 중국은 태양광, 수력, 풍력 발전 설비도 세계 최대 규모로 보유하고 있으며, 현재 원자력 발전 설비 도입에서도 선두를 달리고 있습니다. 미국은 1970년대에 가동된 원자력 발전소만 유지하고 있습니다. 간단히 말해, 미국 에너지망의 용량을 업그레이드하고 증설하는 것은 사실상 불가능한 일입니다. 반면 중국은 2011년 이후, 즉 지난 10년 동안 미국 전력망 전체의 용량을 증설해 왔습니다.

     

    상대적인 전력 풍부함으로 인해 전력 제약이 없다면 전력 밀도를 포기하고 설계에 광학 장치를 포함하여 스케일업을 확대하는 것이 합리적입니다. CM384 설계는 랙 외부에서도 시스템 수준의 제약을 고려하며, 중국의 AI 야망을 제약하는 것은 상대적인 전력 가용성만이 아니라고 생각합니다. 화웨이 솔루션의 지속적인 스케일업을 위한 여러 가지 방법이 있다고 생각합니다.

     

    How Many Ascend 910C and CloudMatrix 384 Can China Make? - 중국은 Ascend 910C 과 CloudMatrix 384를 몇대나 생산할 수 있을까?

    흔히 오해되는 것 중 하나는 화웨이 910C가 중국에서 생산된다는 것입니다. 설계는 전적으로 중국에서 이루어졌지만, 중국은 여전히 해외 생산에 크게 의존하고 있습니다. 삼성의 HBM, TSMC의 웨이퍼, 미국, 네덜란드, 일본의 장비 등 해외 산업에 대한 의존도가 높습니다.

     

    중국 최대 파운드리 업체인 SMIC는 7nm 공정을 사용하지만, Ascend 910B와 910C의 대부분은 TSMC의 7nm 공정으로 생산됩니다. 실제로 미국 정부, TechInsights 등은 Ascend 910B와 910C를 인수했으며, 모든 제품이 TSMC의 다이를 사용했습니다. 화웨이는 다른 회사인 Sophgo를 통해 약 5억 달러 상당의 7nm 웨이퍼를 구매함으로써 TSMC에 대한 제재를 우회할 수 있었습니다.

     

    출처: SemiAnalysis Datacenter Model

     

    TSMC는 이 노골적인 제재 위반으로 10억 달러의 벌금을 부과받았는데 , 이는 그들이 얻은 이익의 두 배에 불과합니다. 화웨이가 다른 제 3의 업체 를 통해 TSMC로부터 웨이퍼를 계속 공급받고 있다는 루머가 있지만 , 이 루머를 확인할 수는 없습니다.

     

    https://www.reuters.com/technology/tsmc-could-face-1-billion-or-more-fine-us-probe-sources-say-2025-04-08/

     

    Huawei’s HBM Access - 화웨이의 HBM 접근

    최첨단 해외 의존도 여기에 한몫하지만, 중국은 HBM에 대한 의존도가 훨씬 더 높습니다. 중국은 CXMT가 적정 수준의 물량을 확보하려면 아직 1년이나 더 걸릴 것으로 예상되어 HBM을 안정적으로 생산할 여력이 없습니다. 다행히 삼성이 이러한 상황을 해결해 주었습니다. 삼성은 중국 내 최대 HBM 공급업체로서 화웨이가 HBM 금지 조치 이전에 총 1,300만 개의 HBM 스택을 비축할 수 있도록 지원했습니다. 이 스택은 Ascend 910C 패키지 160만 개에 사용될 수 있습니다.

     

    더욱이, 금지된 HBM은 여전히 중국으로 재수출되고 있습니다. HBM 수출 금지는 특히 미가공 HBM 패키지에만 적용됩니다. HBM이 포함된 칩은 FLOPS 규정을 초과하지 않는 한 여전히 배송 가능합니다. CoAsia Electronics는 중화권에서 삼성의 HBM을 독점적으로 공급하고 있으며, ASIC 설계 서비스 회사인 Faraday에 HBM2E를 공급해 왔습니다. 패러데이는 SPIL(애플리케이션 설계 서비스)을 통해 저렴한 16nm 로직 다이와 함께 "패키징"합니다

     

    Faraday는 이 시스템을 패키지 형태로 중국으로 배송하는데, 이는 기술적으로 허용되는 사항이지만, 중국 기업들은 디솔더링(desoldering)을 통해 HBM을 회수할 수 있습니다. 저희는 그들이 매우 약한 저온 솔더 범프를 사용하는 등 패키지에서 HBM을 매우 쉽게 분리할 수 있는 기술을 사용한다고 생각합니다. 따라서 "패키징"이라는 표현은 최대한 느슨하게 표현한 것입니다.

     

    📌 참고:
    HBM(High Bandwidth Memory) 패키징 기술에서 디솔더링(desoldering) 이란?
    주로 불량 분석, 리워크(rework), 또는 리사이클링 등의 목적으로 사용되는 공정으로, 이미 솔더링(soldering)이 완료된 부품이나 칩을 PCB나 인터포저, 패키지 substrate로부터 분리해내는 과정

     

    출처: CoAsia Electronics

     

    2025년, 수출 통제가 발효된 이후 CoAsia의 매출이 폭발적으로 증가한 것은 결코 우연이 아닙니다.

     

    Chinese Domestic Foundry Can Still Ramp - 중국내 파운더리는 아직 생산Capa 확대 가능

     

    해외 생산은 여전히 필요하지만, 중국의 국내 반도체 공급망 역량은 빠르게 향상되고 있으며 여전히 과소평가되고 있습니다. 우리는 SMIC와 CXMT의 제조 능력에 대해 지속적으로 우려를 표명해 왔습니다. 수율과 처리량은 여전히 문제이지만, 문제는 중국의 GPU 생산량 증가가 장기적으로 어떻게 될 것인가입니다.

    SMIC와 CXMT는 모두 수십억 달러 상당의 제조장비를 받았으며 , 제재에도 불구하고 여전히 외국에서 단독으로 조달한 화학 물질과 재료를 상당량 받고 있습니다.

    출처: SemiAnalysis

     

    SMIC는 상하이, 선전, 베이징에 첨단 노드 생산을 위한 생산 능력을 추가하고 있습니다. 올해 월 5만 장에 가까운 웨이퍼 생산 능력을 확보할 예정이며, 해외 장비 접근성이 지속되고 효과적인 제재 및 집행이 부재함에 따라 생산량을 지속적으로 확대하고 있습니다. 수율을 높이면 화웨이 Ascend 910C 패키지에서 상당한 실적을 달성할 수 있습니다.

    TSMC는 2024년과 2025년에 걸쳐 80만 대의 Ascend 910B와 105만 대의 Ascend 910C를 생산하기에 충분한 290만 개의 다이를 제공했지만, HBM, 웨이퍼 제조 장비, 장비 서비스, 포토레지스트와 같은 화학 물질을 효과적으로 제어하지 못하면 SMIC 생산 용량이 엄청나게 늘어날 가능성이 있습니다.

     

    📌 역자주:
    현재는 TSMC 7nm 공정으로 생상된 웨이퍼 칩으로 Ascend 910C를 생산하고 있지만 SMIC 측에서 수율을 포기하고 DUV 쿼드러플 패터닝을 통한 7nm 공정의 양산을 지속 하다고 하면 중국의 반도체 자급율 상승 및 해외 의존성을 낮출 수 있다고 봄. 다만 그동안 경쟁사 인력 스카우팅 및 패스트 팔로우 전략으로 빠르게 기술 격차를 따라왔다고 한다면 이제 부터는 중국의 반도체 기술력과 자본력이 시험대가 될것으로 사료됨. 수율을 포기한 양산은 막대한 현금소모를 유발하고 이는 곧 중국 국가 부채와도 연결되어 있음.

     

    https://spedtrder.tistory.com/9

     

    반도체 풍운아 - 梁孟松 / Mong-song Liang (25.3.1)

    량몽송 梁孟松 / Mong-song Liang : 중국의 반도체 혁명을 가속화한 반항적인 천재 TSMC에서 SMIC까지 🚀량몽송은 단순한 기술자가 아닙니다. 그는 살아 움직이는 반도체 전쟁 머신입니다. 그가 어디로

    spedtrder.tistory.com

     

    CloudMatrix 384 System Architecture

     

    다음으로 CloudMatrix 384 아키텍처, 스케일업 네트워킹, 스케일아웃 네트워킹, 전력 예산 및 비용에 대해 자세히 알아보겠습니다.

    전체 CloudMatrix 시스템은 16개의 랙에 분산되어 있으며, 각 랙에는 32개의 GPU가 장착되어 있습니다. 이 16개의 랙 중앙에는 4개의 스케일업 스위치 랙이 있습니다. 화웨이는 세계적인 규모를 확보하기 위해 여러 랙에 걸쳐 스케일업을 진행하고 있으며, 이를 위해 광학 장치를 사용해야 했습니다. 화훼이처럼 모든 랙을 하나로 통합하여 수백 개의 GPU를 구축하는 것은 쉬운 일이 아닙니다.

     

     

    Similarities to DGX H100 NVL256 “Ranger” - DGX H100 NVL256 "Ranger"와의 유사점)

    2022년, 엔비디아는 DGX H100 NVL256 "레인저" 플랫폼을 발표했지만 , 비용이 너무 많이 들고 전력 소모가 많으며, 필요한 광 트랜시버와 두 계층의 네트워크로 인해 신뢰성이 낮다는 이유로 생산에 투입하지 않기로 결정했습니다. 클라우드매트릭스 포드는 네트워킹을 위해 무려 6,912개의 400G LPO 트랜시버를 필요로 하며, 이 중 대부분은 스케일업 네트워크용입니다.

    출처: Nvidia HotChips

     

    https://pytorchtoatoms.substack.com/p/why-dgx-h100-nvl256-never-shipped

     

    Why DGX H100 NVL256 Never Shipped? Analysis of BoM, Will GB200 NVL72 Fail too?

    DGX H100 NVL256/GH200 NVL256 Got Discontinued, GH200 NVL32 Re-Design, GB200/B200 NVL36/NVL72 Copper Analysis

    pytorchtoatoms.substack.com

     

    원문출처:

    https://semianalysis.com/2025/04/16/huawei-ai-cloudmatrix-384-chinas-answer-to-nvidia-gb200-nvl72/

    반응형
Designed by Tistory.