Nvidia-servers versnellen AI-modellen, incl. China's Moonshoot AI, tienvoudig
In dit artikel:
Nvidia publiceerde op woensdag 3 december in San Francisco nieuwe testresultaten waaruit blijkt dat zijn nieuwste AI-server de inference-prestaties van recente models uit China en andere ontwikkelaars tot ongeveer tienmaal kan verbeteren ten opzichte van de vorige servergeneratie. Het gaat vooral om zogeheten mixture-of-experts (MoE)-modellen, die vragen opsplitsen en delen van de taak toewijzen aan gespecialiseerde “experts” binnen het model. Dergelijke modellen werden dit jaar populair nadat Chinese ontwikkelaars zoals DeepSeek en Moonshot AI met krachtige, deels opensourcesystemen verontrustend efficiënt bleken te zijn tijdens training.
Nvidia zegt dat de winst voortkomt uit het bundelen van 72 van zijn top‑chips in één machine en vooral uit zeer snelle interne verbindingen tussen die chips — een gebied waarin het bedrijf nog een voorsprong heeft op concurrenten. De tests lieten onder meer een tienvoudige versnelling zien voor Moonshot’s Kimi K2 Thinking-model. Tegelijk verschuift de AI-markt van puur trainen naar grootschalige uitrol (inference), waar Nvidia meer concurrentie krijgt van onder anderen AMD en Cerebras. AMD werkt naar eigen zeggen aan een vergelijkbare multi‑chip server die volgend jaar komt.