ATI Radeon 5870: DirectX 11, Eyefinity und jede Menge Power

ATIs Fünf-Punkte-Plan

Laut ATI wollte man bei der Entwicklung der neuen GPU fünf Ziele erreichen. Nummer eins war, rechtzeitig zum Marktstart von Windows 7 DirectX-11-Produkte anbieten zu können. Das Timing könnte in dieser Hinsicht nicht besser sein, da Microsoft die Entwicklung seines nächsten Betriebssystems inzwischen abgeschlossen hat und der Marktstart kurz bevorsteht.

Zweitens sollte die Leistung in Spielen die DirectX 9, 10 und 10.1 nutzen verbessert werden. Da derzeit noch keine DirectX-11-Spiele verfügbar sind, war ATI klar, dass die neue Karte sich zumindest in den ersten Monaten nach ihrer Vorstellung an der Spieleleistung mit diesen »alten« Schnittstellen würde messen lassen müssen.

Nummer drei auf der Liste war Stream Computing. Dieses Gebiet hat Nvidias CUDA seit seiner Vorstellung uneingeschränkt dominiert. Nun, da mit OpenCL 1.0 und DirectCompute zwei herstellerübergreifende GPGPU-Standards eingeführt werden, kann ATI auch in diesem Bereich zeigen, was die eigene Hardware kann.

Viertens setzte man sich das Ziel, bei ähnlichem Stromverbrauch in etwa die doppelte Rechenleistung der Vorgängergeneration zu erreichen. ATI behauptet, dieses Ziel eigenen Messungen zufolge erreicht zu haben. Der maximale Stromverbrauch fällt bei den neuen Karten zwar höher aus, dafür nehmen sie aber im Leerlauf weit weniger Leistung auf.

Das fünfte und letzte Punkt auf der Liste der ATI-Ingenieure waren grob formuliert Innovationen. Dieses Ziel erreichten sie durch die durch Cypress ermöglichten Kombinationen an Display-Anschlüssen sowie gewissen Verbesserungen bei der Bildqualität.

Wie verdoppelt man die Leistung?

Die einfachste Möglichkeit, die Rechenleistung einer GPU zu verdoppeln, besteht darin, die Ressourcen, die am meisten Einfluss auf die Leistung haben zu verdoppeln. Das Ergebnis ist eine Rechenleistung von 2,7 TeraFLOPS bei einfacher Genauigkeit und 544 GigaFLOPS bei doppelter Genauigkeit.

Radeon HD 5870 Radeon HD 4870
Die-Größe 334mm² 263 mm²
Transistoren 2,15 Milliarden 0,956 Milliarden
Speicherdurchsatz 153 GB/s 115 GB/s
AA Resolve 128 64
Z/Stencil 128 64
Textur-Einheiten 80 40
Shader (ALUs) 1,600 800
Stromverbrauch (Leerlauf) 27 W 90 W
Stromverbrauch (Volllast) 188 W 160 W

Während der RV770-Chip 10 SIMD-Kerne besaß, sind es beim Cypress 20. Wie gehabt stecken in jedem Kern 16 Stream-Prozessoren, von denen wiederum jeder über 5 fünf ALUs verfügt, die »ATI Stream-Cores« nennt. Rechnet man das alles auf, stehen unterm Strich 1.600 Stream-Cores beziehungsweise Shader. 1.600 Shader mal 850 MHz mal 2 FLOPS ergibt dann, zumindest auf dem Papier, die oben genannten 2,7 TFLOPS.

Wie bei der vorigen Generation sind die Textureinheiten des Cypress an die SIMD-Arrays gebunden, und zwar vier pro Array. Bei 20 Arrays macht das insgesamt 80 Textureinheiten. Beim RV770 waren es noch 40.

Obwohl die Render-Back-Ends im obigen Blockschaltbild denen des RV770 recht ähnlich sind, sind sie beim Cypress erheblich verbessert worden. Als die RV770-Architektur vorgestellt wurde, sorgte dieser Teil des Chips für Besorgnis. Immerhin hatte man sich damals für einen »nur« 256 Bit breiten Speicherbus entschieden. Letztlich konnte der GDDR5-Speicher die daraus entstehenden Nachteile beim Speicherdurchsatz aber abfedern. Darüber hinaus zeigten Verbesserungen bei der Anti-Aliasing-Performance und bei Z/stencil-Berechnungen, dass ATI viele der Schwachpunkte der RV670-Architektur ausgeräumt hatte.

Ebenfalls interessant...