NVIDIA集成AI超算中心經(jīng)驗(yàn)，打造AI就緒型數(shù)據(jù)中心

linhuijia 2025-03-21 百度 72 次瀏覽 0個(gè)評(píng)論

文|智東西

傳統(tǒng)數(shù)據(jù)中心向人工智能（AI）轉(zhuǎn)型已是大勢(shì)所趨。

一方面，從智能客服、智能安防、智能風(fēng)控、智能運(yùn)維到智能質(zhì)檢，愈加豐富的智能化應(yīng)用致使存儲(chǔ)需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)，并對(duì)數(shù)據(jù)中心的算力提出新的挑戰(zhàn)。

另一方面，AI 正打破傳統(tǒng)數(shù)據(jù)中心的管理和運(yùn)營(yíng)模式，完成更為精準(zhǔn)的系統(tǒng)調(diào)優(yōu)、故障預(yù)判等任務(wù)，替代更多人力，減少能耗和資源浪費(fèi)，更大程度釋放生產(chǎn)力。

作為 AI 時(shí)代的基礎(chǔ)設(shè)施，AI 硬件正成為越來(lái)越多數(shù)據(jù)中心擴(kuò)容建設(shè)的關(guān)鍵所在。尤其是能源、銀行、保險(xiǎn)、制造、電信、醫(yī)療等重度存儲(chǔ)用戶，急需加速 AI 的基礎(chǔ)架構(gòu)方案。

當(dāng)超強(qiáng)計(jì)算力成為數(shù)據(jù)中心的剛需，NVIDIA GPU 憑借強(qiáng)大的并行計(jì)算和浮點(diǎn)能力突破了深度學(xué)習(xí)的算力瓶頸，成為 AI 硬件的首選。

然而，對(duì)于許多傳統(tǒng)數(shù)據(jù)中心而言，部署包含 AI 硬件的基礎(chǔ)設(shè)施，需要耗費(fèi)許多時(shí)間與人力。

對(duì)此，NVIDIA 基于 GPU 軟硬件生態(tài)系統(tǒng)，提供了一站式交付節(jié)點(diǎn)解決方案 DGX POD。

這一方案可以大大節(jié)省構(gòu)建基礎(chǔ)設(shè)施所花費(fèi)的時(shí)間，幫助數(shù)據(jù)中心輕松快速進(jìn)行 AI 部署，為擴(kuò)展多 GPU 服務(wù)器節(jié)點(diǎn)提供更多支持。

本期的智能內(nèi)參，我們推薦《NVIDIA DGX POD 數(shù)據(jù)中心參考設(shè)計(jì)》白皮書，從傳統(tǒng)數(shù)據(jù)中心的 AI 轉(zhuǎn)型之困著手，結(jié)合 DGX POD 的應(yīng)用實(shí)例，解讀 NVIDIA DGX POD 交付節(jié)點(diǎn)的核心亮點(diǎn)，為亟待快速轉(zhuǎn)型 AI 的數(shù)據(jù)中心架構(gòu)師，以及準(zhǔn)備構(gòu)建 AI 就緒型數(shù)據(jù)中心提供參考。如需查閱此白皮書《NVIDIA DGX POD 數(shù)據(jù)中心參考設(shè)計(jì)》，可直接點(diǎn)擊：NVIDIA DGX POD 數(shù)據(jù)中心參考設(shè)計(jì)白皮書 - 白皮書下載 - 英偉達(dá)AI計(jì)算專區(qū) - 智東西下載。

以下為智能內(nèi)參整理呈現(xiàn)的干貨：

數(shù)據(jù)中心 AI 轉(zhuǎn)型遭遇困局

大數(shù)據(jù)、AI 與云計(jì)算等新興技術(shù)卷起新的浪潮，在各類數(shù)據(jù)中心中形成連鎖反應(yīng)。海量數(shù)據(jù)處理任務(wù)涌入數(shù)據(jù)中心，面對(duì)人工智能應(yīng)用的訓(xùn)練和推理，令傳統(tǒng)的CPU 服務(wù)器難以招架。

深度學(xué)習(xí)算法屬于計(jì)算密集型算法，與 NVIDIA GPU 計(jì)算架構(gòu)十分契合。過(guò)去 CPU 需要花數(shù)十天完成的計(jì)算任務(wù)，通用 GPU 只用幾小時(shí)就能完成，這大幅提升深度學(xué)習(xí)等并行處理數(shù)據(jù)方法的計(jì)算效率，使得以 GPU 為基礎(chǔ)的設(shè)備日漸成為各大數(shù)據(jù)中心進(jìn)行深度學(xué)習(xí)訓(xùn)練的首選。

然而，即便部署了強(qiáng)大的硬件設(shè)備，也不意味著數(shù)據(jù)中心的 AI 轉(zhuǎn)型計(jì)劃就萬(wàn)事俱備了，還有一個(gè)關(guān)鍵問題擺在眼前——架構(gòu)設(shè)計(jì)。

數(shù)據(jù)中心需要考慮的因素遠(yuǎn)不止算力，還需兼顧網(wǎng)絡(luò)、存儲(chǔ)、電源、散熱、管理和軟件等方面問題。

硬件組合不是簡(jiǎn)單粗暴的積木堆疊，并不是說(shuō)計(jì)算節(jié)點(diǎn)越多，性能就會(huì)隨之線性增長(zhǎng)。其計(jì)算性能會(huì)受制于高速互聯(lián)網(wǎng)絡(luò)，一旦出現(xiàn)數(shù)據(jù)擁堵，整機(jī)系統(tǒng)的效率都可能被拖累。另外，過(guò)多計(jì)算硬件堆疊，可能導(dǎo)致功耗過(guò)大，不利于日后的運(yùn)營(yíng)。

因此，數(shù)據(jù)中心必須思考如何打造了降本增效的最佳方式，將各種硬件資源協(xié)同組合，在穩(wěn)定安全的狀態(tài)下，以超低延遲和高帶寬訪問數(shù)據(jù)集。

這對(duì)于缺乏 AI 部署經(jīng)驗(yàn)的傳統(tǒng)數(shù)據(jù)中心而言，無(wú)疑是個(gè)不小的挑戰(zhàn)。如果 DIY GPU 計(jì)算節(jié)點(diǎn)，不僅需要耗費(fèi)人力和時(shí)間成本，還要考慮計(jì)算、存儲(chǔ)、交換機(jī)等各種硬件設(shè)備的集成兼容問題。

對(duì)于這一痛點(diǎn)，NVIDIA 提供了一個(gè)頗有吸引力的解決方案。

它通過(guò)與領(lǐng)先的存儲(chǔ)、網(wǎng)絡(luò)交換技術(shù)提供商合作，提供一系列 DGX POD 數(shù)據(jù)中心交付節(jié)點(diǎn)設(shè)計(jì)參考架構(gòu)，將 NVIDIA 長(zhǎng)期積累的超大規(guī)模數(shù)據(jù)中心 AI 部署經(jīng)驗(yàn)，轉(zhuǎn)化為可復(fù)制方案，無(wú)論是大中小型數(shù)據(jù)中心，均可以直接參考使用。

NVIDIA AI 超級(jí)計(jì)算機(jī)構(gòu)建經(jīng)驗(yàn)轉(zhuǎn)換

DGX POD 交付節(jié)點(diǎn)（Point of Delivery）是一種經(jīng)優(yōu)化的數(shù)據(jù)中心機(jī)架，包含多臺(tái) DGX-1 或 DGX-2 服務(wù)器、存儲(chǔ)服務(wù)器和網(wǎng)絡(luò)交換機(jī)等最佳實(shí)踐。

▲ DGX POD 參考架構(gòu)正面圖

這是 NVIDIA 構(gòu)建大量超大規(guī)模 GPU 加速計(jì)算節(jié)點(diǎn)的經(jīng)驗(yàn)之集大成者。NVIDIA 曾建立了大型的 AI 數(shù)據(jù)中心，包含數(shù)千臺(tái)領(lǐng)先的 DGX 服務(wù)器加速計(jì)算節(jié)點(diǎn)。

今年6月，NVIDIA 宣布推出全球速度排名第22位的超級(jí)計(jì)算機(jī) DGX SuperPOD，為企業(yè)快速部署自動(dòng)駕駛汽車項(xiàng)目，提供同等大小的超算無(wú)法匹敵的 AI 性能。

SATURNV 亦是 NVIDIA 基于 DGX 系統(tǒng)構(gòu)建的 AI 超級(jí)計(jì)算機(jī)，支持自動(dòng)駕駛汽車、機(jī)器人、顯卡、HPC 等多領(lǐng)域的 NVIDIA 內(nèi)部 AI 研發(fā)。早在2016年推出之際，DGX SATURNV 就登上 Green 500 超算榜第一，被評(píng)為全球最經(jīng)濟(jì)高效的超算，整體運(yùn)算速度位列第28位，是最快的 AI 超算。

基于使用 SATURNV 所遵循的設(shè)計(jì)原則和架構(gòu)，NVIDIA 在短短三周內(nèi)就打造出一套基于 NVIDIA DGX-2 配置的全新系統(tǒng) DGX SuperPOD。近期 NVIDIA 借助一套基于 DGX-2 的配置在 MLPerf 基準(zhǔn)測(cè)試中創(chuàng)下六項(xiàng) AI 性能記錄。

在將 DGX SATURAN 打造成所有企業(yè)都可復(fù)制的、經(jīng)驗(yàn)證的設(shè)計(jì)過(guò)程中，NVIDIA 經(jīng)過(guò)實(shí)地檢驗(yàn)積累了豐富的經(jīng)驗(yàn)，并將計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等多方面的最佳實(shí)踐，集中于 NVIDIA DGX POD 的設(shè)計(jì)之中。

如今，包括 Arista、思科、DDN、Dell EMC、IBM Storage、Mellanox、NetApp 和 Pure Storage 等在內(nèi)的業(yè)內(nèi)數(shù)據(jù)中心領(lǐng)導(dǎo)者已圍繞 DGX POD，推出了基于其各自特有技術(shù)的相關(guān)產(chǎn)品。

這些集成系統(tǒng)均為客戶提供經(jīng)過(guò)經(jīng)驗(yàn)驗(yàn)證的可靠方法，這意味著，每個(gè)企業(yè)都能量身定制完全適配自身需求的 AI 超算中心。

例如，基于 DGX POD，NetApp 推出了 NetApp ONTAP AI 融合基礎(chǔ)架構(gòu)。其由 NVIDIA DGX-1 服務(wù)器、 NetApp 云互聯(lián)存儲(chǔ)系統(tǒng)提供支持，是 NVIDIA 和 NetApp 聯(lián)合開發(fā)和驗(yàn)證的架構(gòu)。

借助這一架構(gòu)，企業(yè)可以從小規(guī)模起步進(jìn)行無(wú)縫擴(kuò)展，智能管理跨邊緣、核心和云以及反向數(shù)據(jù)傳輸?shù)耐暾疃葘W(xué)習(xí)數(shù)據(jù)管道，簡(jiǎn)化 AI 部署。

圍繞 NVIDIA DGX POD 參考架構(gòu)和 NetApp ONTAP AI，英國(guó)劍橋咨詢公司構(gòu)建了一套專門的 AI 研究設(shè)施，用于訓(xùn)練一個(gè)能即刻準(zhǔn)確識(shí)別各種音樂流派的 AI “狂熱愛好者”。

借助參考框架，其 AI 項(xiàng)目所帶來(lái)的對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)設(shè)施的需求均得到滿足。經(jīng)過(guò)在16臺(tái) NVIDIA GPU 上接受數(shù)百小時(shí)的音樂訓(xùn)練，這位特殊的音樂愛好者，在“聽音識(shí)流派”的準(zhǔn)確度上，甚至超越了人類和傳統(tǒng)編程。

AI 軟件：調(diào)優(yōu) DGX 硬件，降低管理門檻

除了設(shè)計(jì)優(yōu)化的 DGX 服務(wù)器、存儲(chǔ)服務(wù)器和網(wǎng)絡(luò)交換機(jī)組合，DGX POD 上還運(yùn)行一整套適配的 NVIDIA AI 軟件堆棧，極大簡(jiǎn)化 DGX POD 的日常操作與維護(hù)，為大規(guī)模多用戶 AI 軟件開發(fā)團(tuán)隊(duì)提供高性能的深度學(xué)習(xí)訓(xùn)練環(huán)境。

▲ NVIDIA AI 軟件堆棧

NVIDIA AI 軟件包括 DGX 操作系統(tǒng)（DGX OS）、集群管理和協(xié)調(diào)工具、工作負(fù)載調(diào)度器、來(lái)自 NVIDIA GPU Cloud (NGC) 容器注冊(cè)表的和優(yōu)化容器，可以為使用者提供優(yōu)化的操作體驗(yàn)。

DGX POD 管理軟件可根據(jù)需要，自動(dòng)創(chuàng)新安裝 DGX OS。DGX OS 是 NVIDIA AI 軟件堆棧的基礎(chǔ)，基于優(yōu)化版 Ubuntu Linux 操作系統(tǒng)構(gòu)建，并專門針對(duì) DGX 硬件進(jìn)行調(diào)優(yōu)，支持各種 NVIDIA 庫(kù)和框架及 GPU 的容器進(jìn)行時(shí)。

▲ DGX POD 管理軟件層

DGX POD 管理軟件層由 Kubernete 容器協(xié)調(diào)框架上運(yùn)行的各項(xiàng)服務(wù)組成，可通過(guò)網(wǎng)絡(luò)（PXE）為動(dòng)態(tài)主機(jī)配置協(xié)議（DHCP）和全自動(dòng) DGX OS 軟件配置提供服務(wù)。

通過(guò)使用其簡(jiǎn)單的用戶界面，管理員可在由 Kubernetes 和 Slurm 管理的域中移動(dòng) DGX 服務(wù)器。未來(lái) Kubernetes 增強(qiáng)功能預(yù)計(jì)在純 Kubernetes 環(huán)境中，支持所有 DGX POD 用例。

DGX POD 上的 NVIDIA AI 軟件可借助 Ansible 配置管理工具進(jìn)行管理，白皮書中有提供其開源的軟件管理堆棧和文檔在 Github 上的鏈接。

智東西認(rèn)為，DGX POD 一站式交付節(jié)點(diǎn)解決方案，不僅能加速數(shù)據(jù)中心的 AI 部署效率，同時(shí)也通過(guò)提供更強(qiáng)大的算力，大幅度提升數(shù)據(jù)的利用效率。

當(dāng)前，很多數(shù)據(jù)中心剛剛踏入或計(jì)劃踏入 AI 的大門，而當(dāng)下主流的深度學(xué)習(xí)算法必須配備專業(yè)的 AI 基礎(chǔ)設(shè)施?；?NVIDIA DGX POD 的架構(gòu)方案，對(duì)于快速構(gòu)建大規(guī)模 AI 計(jì)算集群非常具有參考價(jià)值。隨著此類基礎(chǔ)架構(gòu)逐漸普及，更多數(shù)據(jù)中心將得以消除設(shè)備與資本預(yù)算之間的鴻溝。

這只是 NVIDIA 打造 AI 就緒型數(shù)據(jù)中心宏圖的重要版面之一，利用 DGX-1、DGX-2 服務(wù)器和NVIDIA GPU 大規(guī)模計(jì)算架構(gòu)的發(fā)展進(jìn)步，NVIDIA 正將機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和高性能計(jì)算（HPC）擴(kuò)展到更多的數(shù)據(jù)中心，為金融、能源、制造、電信、醫(yī)療、科學(xué)計(jì)算等更多行業(yè)的生產(chǎn)力提升提供動(dòng)力引擎。

轉(zhuǎn)載請(qǐng)注明來(lái)自浙江中液機(jī)械設(shè)備有限公司 ，本文標(biāo)題：《NVIDIA集成AI超算中心經(jīng)驗(yàn)，打造AI就緒型數(shù)據(jù)中心》

linhuijia 416篇文章站點(diǎn) 微博

每一天，每一秒，你所做的決定都會(huì)改變你的人生！

2025新澳天天六開資料_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司
2025澳門開獎(jiǎng)結(jié)果記錄_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司
2025年天天開彩免費(fèi)資料_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司
新澳門王中王五肖中特_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司
新奧精準(zhǔn)免費(fèi)提供澳門_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司
2025今晚澳門開什么碼_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司
2025新澳門特馬今晚開_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司
最準(zhǔn)一肖一碼一一香港澳王一王_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

發(fā)表評(píng)論取消回復(fù)

評(píng)論列表（暫無(wú)評(píng)論，72人圍觀）參與討論

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

super_admin管理員

最新文章

文章歸檔

網(wǎng)站收藏

NVIDIA集成AI超算中心經(jīng)驗(yàn)，打造AI就緒型數(shù)據(jù)中心

發(fā)表評(píng)論取消回復(fù)

還沒有評(píng)論，來(lái)說(shuō)兩句吧...

最近發(fā)表

友情鏈接

文章目錄

super_admin管理員

最新文章

文章歸檔

網(wǎng)站收藏

NVIDIA集成AI超算中心經(jīng)驗(yàn)，打造AI就緒型數(shù)據(jù)中心

法夫爾桑喬最新信息，全方位解讀球員動(dòng)態(tài)與個(gè)人進(jìn)展，法夫爾桑喬最新動(dòng)態(tài)與個(gè)人進(jìn)展全方位解讀

百家頤最新招聘信息出爐！誠(chéng)邀精英加入，共創(chuàng)輝煌未來(lái)！，百家頤誠(chéng)邀精英，共啟招聘新篇章

墜落原因最新消息，墜落原因最新進(jìn)展揭秘

北池頭小區(qū)最新資訊信息，北池頭小區(qū)最新動(dòng)態(tài)速遞

有關(guān)文化的最新政策，推動(dòng)文化繁榮與發(fā)展，最新文化政策推動(dòng)文化繁榮與發(fā)展進(jìn)程

鎮(zhèn)雄最新教育網(wǎng)站信息，鎮(zhèn)雄最新教育網(wǎng)站資訊速遞

下載最新好聽的鈴聲抖音，抖音熱門鈴聲下載，最新好聽鈴聲一網(wǎng)打盡

呂不韋門客最新消息，呂不韋門客最新動(dòng)態(tài)報(bào)道

2025新澳天天六開資料_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

2025澳門開獎(jiǎng)結(jié)果記錄_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

2025年天天開彩免費(fèi)資料_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

新澳門王中王五肖中特_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

新奧精準(zhǔn)免費(fèi)提供澳門_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

2025今晚澳門開什么碼_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

2025新澳門特馬今晚開_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

最準(zhǔn)一肖一碼一一香港澳王一王_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

發(fā)表評(píng)論取消回復(fù)

還沒有評(píng)論，來(lái)說(shuō)兩句吧...

最近發(fā)表

友情鏈接

文章目錄

NVIDIA集成AI超算中心經(jīng)驗(yàn)，打造AI就緒型數(shù)據(jù)中心

法夫爾桑喬最新信息，全方位解讀球員動(dòng)態(tài)與個(gè)人進(jìn)展，法夫爾桑喬最新動(dòng)態(tài)與個(gè)人進(jìn)展全方位解讀

百家頤最新招聘信息出爐！誠(chéng)邀精英加入，共創(chuàng)輝煌未來(lái)！，百家頤誠(chéng)邀精英，共啟招聘新篇章

墜落原因最新消息，墜落原因最新進(jìn)展揭秘

北池頭小區(qū)最新資訊信息，北池頭小區(qū)最新動(dòng)態(tài)速遞

有關(guān)文化的最新政策，推動(dòng)文化繁榮與發(fā)展，最新文化政策推動(dòng)文化繁榮與發(fā)展進(jìn)程

鎮(zhèn)雄最新教育網(wǎng)站信息，鎮(zhèn)雄最新教育網(wǎng)站資訊速遞

下載最新好聽的鈴聲抖音，抖音熱門鈴聲下載，最新好聽鈴聲一網(wǎng)打盡

呂不韋門客最新消息，呂不韋門客最新動(dòng)態(tài)報(bào)道

還沒有評(píng)論，來(lái)說(shuō)兩句吧...