个人资料
markyang (热门博主)
  • 博客访问:
正文

马克谈天下(432) 聊聊辉达的崛起和未来预测

(2024-03-05 16:03:45) 下一个

上周,如果说科技界最热门的新闻是OPENAI发布SORA,那科技财经界都能同时上头条的无疑是“NVDA股价飙升,市值突破2T”,作为一个NVDA股票的拥有者,也因为NVDA发了一点小财,我也来聊聊辉达的崛起和未来预测。

Nvidia (NVDA) Stock Q4 2023 Earnings Preview: What to Expect | tastylive

先简单回顾一下最新的辉达的财报,以及它给投资人带来的回报吧。

AI晶片大廠輝達(Nvidia)第4季財報顯示營收成長265%,創歷史新高,刺激輝達盤後股價飆漲10%,執行長黃仁勳並指出,「加速運算和生成式人工智慧已經達到臨界點(tipping point),世界各地的公司、行業和國家的需求都在飆升。」有美媒試算若10年前甚至更早投資輝達1000美元,那麼現在擁有的價值,投報率相當驚人。

根據美國財經媒體《CNBC》報導,今年到目前為止,輝達的股價一直呈現上升趨勢,儘管該公司股價在週三交易時段下跌近3%,但自年初以來已飆升近40%,過去12個月則飆升了225%以上。

《CNBC》並進一步試算,如果1年前投資輝達1000美元,截至2月20日,投資價值增長225%至3248美元;如果是5年前投資1000美元,截至2月20日的投資價值將增加1015%至17542美元;10年前投資1000美元,那麽截至2月20日,這筆投資已膨脹到22340%至148226美元。若是,在輝達於1999年1月22日首次上市時就買進1000美元,那截至2月20日,這筆投資增長277708%,價值接近278萬4065美元。
Nvidia Stock (NASDAQ:NVDA) Hits 2T Market Cap, Analysts Are Bullish -  TipRanks.com
我个人的投资是,2016年10月以 17美元左右每股买入300股,到2024年2月底,原来投入的五千多美元,2021年一拆四,合计有1200股,现在已经高达 94万美元,投资回报率高达170倍左右。当年是因为NVDA是少有的有分发股息的高科技股票,而且价格不贵才买入的。

而有关辉达的发展历史,估计很多人都知道一二,我们也就简单聊一下。

创建 NVIDIA 之前,黄仁勋曾经是 AMD 公司的芯片设计师,那时候的他或许想不到,二十年后,自己创立的公司会成为老东家最强劲的竞争对手。

在 AMD 公司,黄仁勋打下了结实的技术基础,之后他又跳槽到了芯片公司 LSI-Logic,在那里,黄仁勋完成了从技术岗到销售岗的转型。1993 年,三十而立的黄仁勋和两位好友共同创建了 NVIDIA,主攻当时仍处在萌芽阶段的图形芯片市场。

NVIDIA 做的第一件大事,就是花两年时间研发了一款与市面上所有图形芯片都不同的产品NV1,它集成了显卡、声卡、手柄驱动等多种功能,瞄准的并不是 PC 市场,而是游戏主机。

可惜,NVIDIA 倾尽全力研发出来的第一款产品,却始终没有打进主流游戏市场,NVIDIA 花光了投资,几近破产。

在走投无路之际,游戏公司世嘉伸出了援手——当时世嘉正在开发新一代的主机“土星”,他们认为 NVIDIA 芯片的高集成度能够更好地在游戏机上发挥性能,因此投入了 700 万美金支持 NVIDIA 研发新一代的产品。

虽然世嘉跟 NVIDIA 的合作最终没有成功,研发中的 NV2 芯片也因此流产,但靠着这 700 万美金,黄仁勋终于摸到了市场的脉象——当时微软发布了 Direct X 接口,可市面上支持这一标准的图像芯片却寥寥无几,所有的图像芯片厂商都在忙着推广自己的接口。

显卡是电脑系统必备的装置,它负责将CPU送来的影像资料(data)处理成显示器(monitor)可以了解的格式,再送到显示屏(screen)上形成影像。它是我们从电脑获取资讯最重要的管道。因此显示卡及显示器是电脑最重要的部份之一。我们在监视器上看到的图像是由很多个小点组成的,这些小点称为“像素”。在最常用的分辨率设置下,屏幕显示一百多万个像素,电脑必须决定如何处理每个像素,以便生成图像。为此,它需要一位“翻译”,负责从CPU获得二进制数据,然后将这些数据转换成人眼可以看到的图像。除非电脑的主板内置了图形功能,否则这一转换是在显卡上进行的。我们都知道,计算机是二进制的,也就是0和1,但是总不见的直接在显示器上输出0和1,所以就有了显卡,将这些0和1转换成图像显示出来。

黄仁勋决定,放弃部分已有的专利,转而全面支持微软的 Direct X 接口。同时,NVIDIA 全面提升了开发速度,每六个月就研发一款新产品。

转型后的 NVIDIA 推出了 Riva 128 芯片,不仅性能足够强大,而且造价也要比同类产品低廉不少,加上对 Direct X 的良好支持,成为不少 ODM 厂商的首选。之后,找对产品思路的 NVIDIA 开始奋起直追,于 1999 年推出了世界上首款 GPU(Graphics Processing Unit,图形处理器)GeForce 256,与同时代的其他图像芯片相比,GeForce 256 的创新之处在于,大大减少了对 CPU 的依赖,强化了对 3D 图像的渲染功能,性能上远远地甩开了同期的对手。

得益于 GeForce 256 的出色表现,NVIDIA 拿到了微软 Xbox 游戏机的订单,辗转多年以后,NVIDIA 又回到了他们最初想攻占的游戏机市场。其实,黄仁勋一直都知道,NVIDIA 的 GPU 绝不只是为电子游戏服务的,但是让他想不到的是,GPU 居然还能在“深度学习”领域大放异彩。其实,黄仁勋一直都知道,NVIDIA 的 GPU 绝不只是为电子游戏服务的,但是让他想不到的是,GPU 居然还能在“深度学习”领域大放异彩。

在前任显卡巨头3dfx被NVIDIA正面击败后,显卡消费市场就进入了大家熟知的NVIDIA和ATI双雄争霸时代,在这两者对抗期间又淘汰了不少小厂商,最后独立显卡就只剩下A卡和N卡了。虽说是双雄争霸,但实际上ATI基本是节节败退的,其中最著名的就是ATI显卡在DX9末期的溃败。

Nvidia GeForce 256 - World's first GPU and GeForce graphics card - YouTube

NVIDIA在DX9时期投入了数百个研发人员和数亿美金研发GeForce 6系列显卡,该系列显卡一个最大的特点就是高端型号支持SM3.0技术。SM3.0技术是DirectX 9.0C级别显卡全面支持的一项特效。

SM3.0在很大程度上丰富了游戏研发时的编程模型,方便游戏开发商更简单的做效果更好的游戏,确有不少优势,而ATI显卡都无法提供此功能。随着支持SM3.0技术的游戏越来越多,ATI显卡的地位就越来越尴尬,最后演变成在中高端显卡市场的溃败,只能占据部分中低端显卡市场份额的ATI最后被06年如日中天的AMD收购。自此独显市场变成了AMD和NVIDIA的对抗。

DX9时期的大胜让老黄对A卡放松了警惕,认为被收购的A卡不过是苟延残喘,但HD4800系列显卡的诞生改变了NVIDIA的认知,AMD高频小核心低成本显卡的策略取得了极大的成功,显卡市场又重新回到双雄争霸的局面。

曾经有段时间业界形容AMD、NVIDA在GPU策略上的不同是“AMD擅长小核心,性能适中,但是低功耗、NVIDIA偏重大核心,性能强,但功耗高、成本更贵”,NVIDIA在GT200核心上确实是大核心策略,在GF100核心上达到了巅峰,从SP单精度、DP双精度配比上大家应该可以看出来,这时候NVIDIA已经在大幅提升GPU的计算性能了。

在40nm Fermi费米架构中,NVIDIA一下子将CUDA核心数提升到了512个,是GT200核心的两倍,而且单双精度达到了1:2,大量核心用于双精度计算。但是第一代费米核心的GTX 480显卡也因此翻车了,还记得那个著名的显卡红外温度100°C+的图片吗?说的就是GTX 480时代的事。GTX 480在功耗、发热上的翻车教训导致NVIDIA一度很难堪,直到后来推出了GTX 580显卡才有所缓解,总的来说,40nm费米架构这一代,NVIDIA在GPU设计上有了一次飞跃,规格大幅提升,不仅注重游戏性能,也重视计算性能,为此塞入了更多的双精度计算单元,但也因此带来了诸多问题,GTX 480翻车事故带给NVIDIA很多教训,多多少少都影响了后来的GPU架构设计。

距离GTX 580显卡发布一年半时间后,2012年3月22日NVIDIA推出了GTX 680显卡,由此28nm工艺的Kepler架构闪亮登场。这时候AMD基于全新GCN架构的HD 7970显卡已经发布将近3个月了(海外市场2011年12月底发布,国内是次年1月初),后者当时光芒万丈,GCN架构同时融合了计算及游戏的优点,性能比之前的VLIW架构显卡有了明显进步,而且还首发了台积电28nm工艺、PCIe 3.0等等。NVIDIA在Kepler架构中还做了一项重要改变——从Kepler开始,NVIDIA以往坚持的Core:Shader=1:2的分频模式已经没有了,以前采用这种方式是因为核心频率不能大幅提高,为了提高性能就必须让CUDA的核心频率增加一倍,但是这也意味着更高的能耗。战术核显卡这个梗也是当时出现的。

GALAXY GTX 680 2GB 4G Graphics Cards GeForce GPU GTX680 2GD5 Video Card  256Bit GDDR5 GTX680 2G for NVIDIA GK104 Map Hdmi Dvi VGA - AliExpress

2012年NVIDIA发布了开普勒架构的GTX680显卡,显卡不仅帮助NVIDIA夺回单芯显卡卡皇的宝座,还是NV游戏显卡发展方向的转折点。开普勒架构抛弃了以往“纯通用运算处理器”理念来设计GPU,而是大幅加强的GPU的图形游戏性能,成为了纯粹为游戏设计的GPU,这一设计理念也让GPU能缩减掉大量与游戏无关的结构,达到能效比大幅提升的目的。

计算卡和游戏卡分开发展算是N卡发展历史上一个重要的转折点,自此NVIDIA游戏显卡的发展就像坐上了高达,把A卡越甩越远,这项策略也被广泛认为是明智的,而直到2019年AMD才宣布也会采取游戏卡和计算卡分开设计的策略。

到了10系NVIDIA显卡所采用的帕斯卡架构,,再加上16nm新制程的加持,在工艺制程双升级的加持下显卡性能提升幅度达到前所未有的70%!中端甜点显卡在性能上齐平上代次旗舰GTX 980,也因此GTX 1060成为了N卡历史上最为畅销的显卡。

在中端显卡上A卡还能利用堆核策略用设计出较大的核心更大的规模北极星系列显卡和帕斯卡中端显卡打得有来有回,但是在高端显卡上就完全招架不住了,旗舰RX VEGA 64比GTX 1080晚了一年半才发布,性能上基本持平但功耗差不多是GTX 1080两倍,对比帕斯卡的旗舰GTX 1080 Ti更是只能仰望。在传统性能上彻底甩开对手后,NVIDIA显然不满足于此,他不仅要做行业的领头羊,还要做游戏规则的制定者。NVIDIA在18年推出图灵架构显卡,显卡最大的特点就是通过特殊的计算单元RT Core和Tensor Core让显卡的算力达到支持实时光线追踪的要求。

第二代RTX架构”Ampere“架构——GeForceRTX30系列GPU(旗舰型号为RTX3090TI):2020年发布的Ampere架构是在Turing基础上的改良,加入了部分整数、浮点运算单元共享的设计,同时升级了RTCore和TensorCore并优化配比,将光线追踪和AI运算的性能和效率提升到了新的高度,是NVIDIA第二代RTX产品。

With the GeForce RTX 30 Series, Buying a Gaming Laptop Just Got More  Complicated | PCMag
2021年RTX推出了一系列新产品,包括GeForceRTX3050、RTX3050Ti、RTX3060、RTX3060Ti以及RTX3070Ti成功降低了RTX的门槛,NVIDIA联合OEM品牌推出了大量RTX30系列的笔记本产品,将游戏笔记本和创作类笔记本的性能提升到全新的高度,同时也将更多人工智能的算法和技术应用在产品上。

2022年NVIDIA延续GeForceRTX30系列GPU:推出旗舰级GPUGeForceRTX3090Ti,GeForceRTX3090Ti刷新了GPU性能的新纪录,并将ECC显存应用在了GeForce上,标志着GeForce产品线的进一步扩大化,游戏和专业领域开始出现融合迹象,而Titan系列也完全并入了GeForce产品线中,以GeForce产品线的命名方式命名。

ZOTAC GAMING Announces the GeForce RTX 40 Series Powered by the Next  Generation GPU Architecture | ZOTAC
北京时间2022年9月20日,NVIDIA发布了最新的RTX 40系显卡,进一步提升了显卡性能。在现代游戏中,RTX 4090的性能提升高达2倍,同时保持了相同的450W功耗。 RTX4090搭载AD102-300 GPU,启用16384个CUDA内核,比RTX 3090 Ti多出52%,但性能提升幅度却更大。 GPU频率高达2520MHz,搭载24GB 21 Gbps GDDR6X显存,达到1TB/s的带宽,450W默认TGP。在台积电4N工艺加持下,加速频率超过了2.5GHz,比上代的三星8nm工艺有大幅提升。

而NVDA的发展,远远不是GPU显卡那样简单,打造一个超级AI基础设施帝国的三个要素包括:

1. 優異的晶片
「經濟學人」(The Economist)報導,輝達的AI晶片最初是為電玩遊戲設計的繪圖處理器(GPU)加速器,原理是採用平行處理方式,將每道運算拆成更小單位後,再分配給晶片中的多個「核心」(即處理器的大腦)來同時處理。

這意味GPU運算速度比依序來完成任務要快許多。這種運算方法非常適合用在遊戲顯示,因為要出現逼真的圖像,必須讓數不盡的像素同時顯示在螢幕上。輝達的高效能晶片目前在遊戲GPU的市占率高達4/5。

令輝達可喜的是,其晶片還出現更廣泛的用途,包括加密貨幣挖曠、車輛自動駕駛及最重要的AI模型訓練。

AI利用機器學習演算法來運作,這種演算法以深度學習中的類神經網路(artificial neural network,ANN)為架構,電腦透過這個架構從大量資料中找出規則和模式。

而訓練一個類神經網路需要大規模運算,由於這項任務可拆分為較小單位,因此若要加快運算速度,平行處理是理想方式。一顆高效能GPU可含有1000多個核心,因此可以同時處理數千道運算。

當輝達意識到其GPU在訓練AI模型上能提供高效能後,便專注將產品朝這一方面優化。因此即使AI模型日益複雜,輝達的晶片也一直能跟上腳步;2023年輝達晶片的運算速度,已是其10年前產品的1000倍。

2. 網路連結能力
令輝達市值飆升的因素,不只是更快速的晶片。其競爭優勢還延伸到另2個領域,其一是網路連結。

隨著AI模型不斷發展,使用這些模型來運作的資料中心為了提高處理能力,有必要動用數以千計顆串聯在一起的GPU,不同於大多數電腦只需用到少數幾顆。

而輝達用來串聯其GPU的高效能網路,是以網通技術供應商邁倫(Mellanox)的產品為基礎。輝達早在2019年便以70億美元(約新台幣2212億元)價格買下邁倫,這讓輝達能以競爭對手無可比擬的方式,來優化其晶片網的表現。

3. 软件开发平台 CUDA
輝達的客戶可透過這個平台來微調其採購的處理器效能。輝達從2000年代中期以來就不斷投資發展CUDA,長期以來也一直鼓勵開發人員利用它來打造及測試AI應用程式,這些做法已使得CUDA成為實際上的業界標準。

專家預估,AI晶片市場規模至2027年將達到4000億美元。輝達豐厚的利潤加上AI晶片市場的快速成長,已吸引競爭對手目光。

CUDACast #1 - Installing the CUDA Toolkit on Windows 7 - YouTube

亞馬遜(Amazon)和Google(谷歌)母公司Alphabet都正在為自家資料中心打造AI晶片,其他晶片大廠或新創公司也想分一杯羹。其中超微(AMD)已在去年12月推出一款晶片,且從某些標準來看性能已約是輝達最先進晶片的2倍。

然而,即使推出更好的硬體產品,可能也還不夠。輝達之所以能稱霸AI晶片市場,是因為同時提供了最好的晶片、最好的網路連結工具及最好的軟體。任何希望取而代之的競爭對手,都得在這3個領域能擊敗輝達,這將是一項艱鉅的挑戰。

英偉達最近發佈的第四季度財報顯示出色的業績,超出市場預期。英偉達首席執行官黃仁勳向投資者保證,公司預見到2025年之前的持續強勁增長,這對維持英偉達股價上漲至關重要。

在之前的文章中,Nexus研究簡要討論了英偉達的HGX平臺。英偉達通過這個平臺巧妙地將其各種數據中心解決方案作爲一個大的捆綁產品銷售,而不是單獨銷售各個芯片。這一策略帶來了巨大的優勢,例如更好地控制產品性能和客戶體驗,使英偉達能夠將客戶納入其生態系統並加強其市場壁壘。因此,Nexus研究給予英偉達“買入”等級。

此外,鑑於半導體巨頭的精明軟件策略既能增強客戶忠誠度也能擴大利潤空間,並使英偉達在AI革命的下一階段繼續保持領導地位,該機構再次重申對英偉達股票的“買入”評級。

當前,英偉達提供市場上最優秀的AI芯片,這是公認的事實,其數據中心收入在過去一年中增長了三倍多,達到了2024財年的475億美元。

Top NVIDIA Alternatives, Competitors

英偉達已經透露,其擁有“數億臺GPU的安裝基礎”,現在公司正尋求在這個龐大的安裝基礎上建立一個蓬勃發展的軟件業務。這一軟件機會正是支持股票持續看漲論點的下一步增長。

爲了理解英偉達的軟件驅動看漲案例,重要的是要理解其“多實例GPU”[MIG]芯片設計。“實例”在GPU上是指令,而MIG允許單個GPU被分割成七個獨立的實例。這種技術本質上允許在單個GPU上同時運行更多的實例,這意味着可以在每個芯片上同時運行更多的軟件應用程序。

每個GPU運行更多軟件服務的更大容量確實使英偉達能夠向其客戶銷售更多的軟件服務。考慮到英偉達擁有“數億臺GPU的安裝基礎”,軟件機會是巨大的。事實上,英偉達估計其‘英偉達 AI企業’軟件和DGX雲的長期年度市場機會爲1500億美元。

英偉達作爲AI芯片市場的領先者,在訓練領域取得了巨大成功,但市場對其在AI推理領域的表現提出了質疑。據估計,到2030年,全球AI推理芯片市場的價值將從2023年的158億美元增長到906億美元。批評者認爲,在推理階段,客戶可能會選擇AMD和英特爾等公司的性能較弱、成本較低的芯片,而不是英偉達昂貴的高性能芯片。

然而,英偉達的H100 GPU既適用於訓練,也適用於推理,這反駁了市場對英偉達在推理市場能力的質疑。英偉達在2024年第四季度的財報電話會議中透露,大約40%的數據中心收入來自AI推理。此外,英偉達的HGX系統,結合高級GPU和優化的軟件環境,被設計用於支持訓練和推理任務,進一步增強了其產品的吸引力。

除此之外,英偉達的CUDA軟件包也爲Nvidia GPU上的計算任務提供了基礎,幫助加速深度學習框架,並支持AI推理應用程序的開發和部署。這促使更多第三方開發者爲Nvidia GPU開發兼容的AI推理應用,進一步豐富了英偉達的軟件生態系統。到2023年底,CUDA軟件包已累計下載4800萬次,證明了其廣泛的用戶基礎和開發者社區的活躍度。

儘管英偉達在推理市場中的地位受到挑戰,但其多功能GPU和豐富的軟件生態系統爲其在AI行業的轉型提供了強有力的支持。然而,競爭對手如AMD和英特爾也在加強其AI推理領域的努力,客戶在選擇供應商時趨向於多樣化,以避免對單一供應商過度依賴。這表明,儘管英偉達在AI推理市場中佔據優勢,市場競爭仍然激烈。

最后做一下有关辉达的未来预测吧。

股价方面,NVDA应该已经短期内会见顶,毕竟AI的发展现在已经到了一个关键节点,同时,大客户的投资也到达了一个关键的高峰,基于竞争对手的能力加强和AI训练用GPU的市场会逐渐饱和,NVDA的盈利能力应该在2025年到达顶峰,股价也会在2025年有回落。

市场竞争能力方面,除了传统上的芯片巨头,包括AMD,INTEL等等,还有互联网的巨头,包括GOOGLE,META,AMAZON等等,还有OPENAI这种后起之秀。但是从辉达自己的报告来看,NVDA是把华为作为一个全面的竞争对手的,这个观察非常到位。

AI and Semiconductors: Nvidia vs Huawei the new Chip Battle - YouTube

Nvidia英伟达(NVDA)周三(2月22日)提交给美国证券交易委员会(SEC)的文件中,首次将华为列为包括人工智能(AI)芯片在内几个项目的主要竞争对手。英伟达表示,公司在供应显示适配器(GPU)、处理器(CPU)、网络芯片等AI芯片方面,与华为存在竞争性关系,英伟达将华为视为云端服务公司,可自主设计软件和硬件,以改善AI运算功能。

华为的升腾(Ascend)系列芯片是英伟达AI芯片的竞争对手,华为去年推出升腾910B芯片,被视为英伟达三年前推出的A100芯片的中国替代品。分析师预估,中国AI芯片市场总值70亿美元。

除华为外,英伟达列出的其他竞争对手包括英特尔Intel(INTC)、AMD(AMD)、博通Broadcom(AVGO)、高通Qualcomm(QCOM)、亚马逊(AMZN)、微软(MSFT)、阿里巴巴(BABA)、百度(BIDU)等。

总结一下吧,辉达(NVDA)就如同当年的INTEL在CPU的地位一样,在AI时代无疑是一个不可替代的巨头,但是它的领导地位会持续多久,尤其是它的优异的盈利能力是否能持续,都是一个问号,从最近公布的一些新闻来看,NVDA已经加大了在AI领域的布局,AI的高潮才是刚刚开始,未来还是可期,竞争不可避免地加剧,期待NVDA有更多地盈利增长点,成为AI开发的终极平台。

 

 

(本文主要内容总结自网络)

[ 打印 ]
阅读 ()评论 (5)
评论
markyang 回复 悄悄话 回复 'verfechten1' 的评论 :
的确,很多伟大的企业都有同样的特质,就是不轻易改变赛道,特斯拉专注电动车十几年,而英伟达也是GPU一干三十年,后面的机遇都是因为有前期的技术积累和市场打磨,不是简单的可以复制的
verfechten1 回复 悄悄话 谢谢好文。本人以前是特斯拉的铁粉,但这两年多,损失巨大,一有特斯拉及马斯克的新闻及X的不好消息就胆战心惊。 现在转投英伟达,将损失补了点回来。博主的文章提醒了我也要密切注意英伟达的走势,没有一只股票是永远的朋友。
dong140 回复 悄悄话 谢谢好文分享
modems 回复 悄悄话
每篇文章来一段disclaimer,显得另类不自信

markyang 发表评论于 2024-03-05 16:04:11
马克的文章都是个人观点,尽量客观公正,不带入自己的个人喜好,希望大家评论时也是就事论事,不要发表太多情绪化的留言
markyang 回复 悄悄话 马克的文章都是个人观点,尽量客观公正,不带入自己的个人喜好,希望大家评论时也是就事论事,不要发表太多情绪化的留言
登录后才可评论.