Nvidia在最新技術(shù)簡報(bào)中披露,GB200 Blackwell架構(gòu)通過創(chuàng)新的NVLink Switch系統(tǒng)與雙芯片協(xié)同設(shè)計(jì),專為MoE模型的稀疏計(jì)算特性優(yōu)化。其關(guān)鍵改進(jìn)在于將專家路由延遲降低至微秒級(jí),使Kimi K2 Thinking等模型在千卡集群中實(shí)現(xiàn)近線性擴(kuò)展效率。實(shí)測(cè)數(shù)據(jù)顯示,處理1.8萬億參數(shù)規(guī)模的MoE模型時(shí),GB200單節(jié)點(diǎn)吞吐量達(dá)每秒3,200 tokens,較H200的320 tokens提升整整10倍,同時(shí)功耗維持在同等水平。
Blackwell架構(gòu)特有的Transformer引擎動(dòng)態(tài)分配機(jī)制,可智能識(shí)別MoE模型中激活的專家子集,避免傳統(tǒng)GPU對(duì)非活躍參數(shù)的冗余計(jì)算。Nvidia首席科學(xué)家Bill Dally指出:“這種硬件級(jí)稀疏性支持使MoE模型的推理成本下降83%,為千億級(jí)模型商業(yè)化鋪平道路”。