AMD Radeon RX 480 im Test: Kann Polaris gegen Pascal kontern?

Inhaltsverzeichnis

>>

Vor rund sechs Monaten begann AMD damit, häppchenweise die Eigenschaften der kommenden GPU-Generation zu enthüllen. Als Initialschuss wurde ein überarbeiteter Displaycontroller mit Unterstützung für HDMI 2.0b sowie DisplayPort 1.3 HBR3, Freesync über HDMI und einer HDR-fähigen Pipeline angekündigt. Ab diesem Zeitpunkt folgten weitere Informationsbröckchen, die auf den Launch von zwei unterschiedlichen GPUs hinwiesen, die bewusst in der Absicht konzipiert wurden, AMD wieder einen höheren Marktanteil im Mainstream-Desktop-PC-Bereich zu verschaffen. Außerdem sollte eine mobile GPU-Lösung in der Leistungsklasse von Konsolen angeboten werden, die in besonders dünnen und schlanken Systemen zum Einsatz kommen sollte.

Die mobile Lösung wird 16 AMD Compute Units bieten, die an ein 128 Bit breites Speicherinterface angebunden sind und über Beschleunigungsfunktionen zum En- und Dekodierten von 4K-Videomaterial verfügen. Allerdings wurde dieser Chip bislang noch nicht offiziell vorgestellt. Die Radeon RX 480, der wir uns im heutigen Artikel widmen wollen, basiert auf dem größeren Polaris-10-Design. Groß meint hier aber nicht groß im Sinne von Nvidias GP100-GPU mit ihren 15,3 Milliarden Transistoren. Stattdessen ist AMDs neueste Lösung gerade komplex genug, um die aktuellen High-End-VR-Headsets mit Daten füttern zu können. Damit sollte sie zumindest in einer Liga mit AMDs Radeon R9 290 sowie Nvidias GTX 970 mitspielen können.

Reine Midrange-Performance an sich wird aber wohl kaum einen Nutzer von den Socken hauen, vor allem nicht einen Monat nachdem Nvidia mit dem GP104 den High-End-Bereich neu definieren konnte. AMD positioniert die RX 480 deshalb preislich unterhalb von ähnlich schnellen Grafikkarten und konnte zudem den Stromverbrauch auf 150 Watt senken. Dadurch soll VR-Gaming für mehr Spieler attraktiv werden (wenn doch jetzt nur die Firmen, die Head-Mounted Displays für 600 bis 800 US-Dollar anbieten, noch preislich mitziehen würden…).

Uns erwarten insgesamt zwei Versionen der Radeon RX 480: Eine Version für rund 215 Euro (UVP) mit vier Gigabyte GDDR5, der mit rund sieben GBit/s arbeitet, und eine Version für rund 256 Euro mit acht Gigabyte GDDR5, der acht GBit/s schnell ist.

Für den Test haben wir selbstverständlich zum größeren Modell mit acht Gigabyte Speicher gegriffen.

AMDs Polaris 10 im Detail

Polaris 10 setzt sich aus 5,7 Milliarden Transistoren auf einem 230 mm² großen Die zusammen. Zum Vergleich: Hawaii versammelte 6,2 Milliarden Transistoren auf 438 mm² Die-Fläche. Wir ihr später auf den Benchmark-Seiten sehen werdet, sortiert sich die RX 480 leistungsmäßig zwischen der R9 290 und der R9 390 ein – mit weniger Transistoren und ungefährt 55 Prozent des Power-Budgets.

Vieles davon ist natürlich GlobalFoundries 14-nm-FinFET-Prozesstechnik anzurechnen, die im Verglkeich zu den planaren Transistoren der 28-nm-Prozesstechnik laut AMD fundamentale Performance- und energetische Vorteile bietet. Bei jeder beliebigen Energieaufnahme ermöglich FinFET höhere Taktraten – oder geringere Energieaufnahme bei gleichem Takt.

Für Polaris bedient sich AMD aus beiden Töpfen und erhöht die Taktraten, um gleichzeitig auch die Energiaufnahme zu senken. Das ist der Grund, warum die Polaris-10-GPU Ressourcen-reichere GPUs wie Hawaii hinter sich lassen kann und dennoch nur 150 Watt TDP hat – auch wenn unsere Messungen zeigen, dass die RX 480 ihre TDP ein bisschen “frisiert”.

Trotz des neuen Codenamens basiert Polaris 10 auf der vierten Generation von AMDs Graphics Core Next Generation. Die meisten Enthusiasten sind bereits mit GCN vertraut und werden somit die unterschiedlichen Blöcke des Polaris-Designs wiedererkennen.

Noch immer ist ein einzelner Graphics-Command-Prozessor am Anfang der Kette für die Zuweisung von Grafik-Queues an die Shader Engines zuständig – und die Asynchronous Compute Engines (ACEs) sind dafür verantwortlich, Compute Queues zu verteilen.

Aber nun sagt AMD, dass seine Befehlsverarbeitungslogik aus vier statt acht ACEs besteht. Dazu kommen zwei Hardware-Scheduler, die für priorisierte Queues, zeitliche/räumliche Ressourcenverwaltung und das Offloading von Aufgaben des CPU-Kernel zuständig sind. Es gibt keine neuen Blocks an sich, sondern vielmehr einen optionalen Modus, in dem die vorhandenen Pipelines laufen können. Aber wir wollen an dieser Stell mal Dave Nalasco, Senior Technology Manager für Grafik bei AMD, im Original zitieren:

The HWS (Hardware Workgroup/Wavefront Schedulers) are essentially ACE pipelines that are configured without dispatch controllers. Their job is to offload the CPU by handling the scheduling of user/driver queues on the available hardware queue slots. They are microcode-programmable processors that can implement a variety of scheduling policies. We used them to implement the Quick Response Queue and CU Reservation features in Polaris, and we were able to port those changes to third-generation GCN products with driver updates.

Mit Quick Response Queues können Entwicklern bestimmte asynchron laufende Tasks priorisieren, ohne dabei anderen Prozessen gänzlich zuvorzukommen. Daves Blog-Beitrag zu dem Thema findet ihr hier. Um es kurz zu machen: AMD möchte hier vor allem Flexibilität erreichen. Die Architektur erlaubt viele Vorgehensweisen zur Leistungsverbesserung und Minimierung von Latenzen. Beides ist vor allem in VR-Anwendungen extrem wichtig.

Die Compute Units sind alte Bekannte und bestehen aus 64 IEE 754-2008-konformen Shadern, die zwischen vier Vector Units aufgeteilt werden, einer Scalar Unit und 16 Texture Fetch Load/Store Units. Zu jeder CU gehören auch vier Texture Units, 16 Kilobyte L1-Cache, 64 Kilobyte Local Data Share, und Registerraum für Vektor- und Skalareinheiten.

AMD gibt an, eine Reihe von Verbesserungen an der Effizienz der CUs vorgenommen zu haben. Dazu gehören die neu hinzugefügte Unterstützung für FP16 (und Int16), verbesserter Zugriff auf den Cache und besseres Instruction Prefetching. Das alles soll insgesamt zu einer Leistungssteigerung von 15 Prozent pro Compute Unit führen – zumindest im Vergleich zur Radeon R9 290 mit Hawaii-GPU, die noch auf der zweiten Generation der GCN-Architektur basierte.

Neun CUs bilden eine Shader Engine und Polaris 10 brüstet sich damit, über vier dieser SEs zu verfügen, was unseres Wissens nach die maximale Ausbaustufe dieser Architektur darstellt. Daraus ergeben sich (64 Shader x neun CUs x vier SEs) 2304 Stream Prozessoren und 144 Textureinheiten.

Zu jeder Shader Engine gehört eine Geometrie-Engine, die laut AMD dadurch verbessert wurden, dass ein Primitive Discard Accelerator hinzugefügt wurde. Er soll vor der Scan-Umwandlung jedes Primitive aussondern, das nicht zu einem Pixel gerastert wird, und so den Durchsatz verbessern. Dabei handelt es sich um eine automatische Funktion der Pre-Rasterization-Stufe der Grafik-Pipeline, die mit Polaris völlig neu hinzugekommen ist.

Es gibt außerdem einen Index Cache für Geometry Instancing – aber wir wissen weder, wie groß er ist, noch wie groß die Auswirkungen sind, wenn Instancing genutzt wird.

Ähnlich wie Hawaii – später als Grenada bekannt – schafft Polaris 10 bis zu vier Primitives pro Takt. Während die schnellste Hawaii/Grenada-GPU mit bis zu maximal 1050 MHz läuft (in diesem Fall die R9 390X), hat AMD die Radeon RX 480 auf bis zu 1266 MHz hochgezüchtet. Sie verfügt zwar über weniger On-Die-Ressourcen, soll dies allerdings teilweise durch die höhere Taktfrequenz wettmachen können. Während die R9 290X noch eine Floating-Point-Performance (Single Precision) von 5,6 TFLOPS bot, sind es bei der RX 480 dank dieser “Boost”-Spezifikation sogar 5,8 TFLOPS.

Aber wie realistisch sind diese 1266 MHz? Hawaii hatte große Probleme damit, die von AMD spezifizierte Taktrate aufrechtzuerhalten, weil sie einfach zu heiß wurde. Wir wollten natürlich sicherstellen, dass Polaris nicht vom gleichen Problem betroffen ist. Dazu ließen wir den Metro: Last Light Redux-Benchmark 10-mal in einer Schleife laufen und zeichneten dabei die Taktraten mittels GPU-Z auf. Das Ganze resultierte in dem folgenden Diagramm:

Zwischen dem höchsten und niedrigsten Messpunkt im Diagramm liegen exakt 148 MHz. Den Tiefpunkt vermerken wir mit 1118 MHz und das Maximum mit 1265 MHz. Wir würden daher sagen, dass AMD seine Basis- und Boost-Takraten fast auf den Punkt genau trifft – auch wenn das dazwischen ständig angepasst wird. Und: Der Durchschnittswert von 1208 MHz liegt dem Maximum näher als dem Minimum…

Hawaii und Fiji SE verfügten über vier Render-Backends, die jeweils 16 Pixel pro Takt (oder insgesamt 64 über die komplette GPU) verarbeiten konnten. Bei Polaris 10 ist davon nur noch die Hälfte übrig: Zwei Render-Backends pro SE, davon jeder mit vier ROPs, insgesamt 32 Pixel pro Takt. Das ist nun wirklich ein deutlicher Einschnitt gegenüber der Radeon R9 290 auf Hawaii-Basis, die es für die RX 480 zu schlagen gilt. Erschwerend kommt hinzu, dass Polaris 10 nur ein 256 Bit breites Speicherinterface besitzt und damit deutlich weniger als die Hawaii-Grafikkarten mit 512 Bit. Die 4-GByte-Version der Radeon RX 480 wird GDDR5 mit 7 GBit/s bieten, das bedeutet eine maximale Bandbreite von 224 GByte/s. Das heute getestete 8 -GByte-Modell bietet hingegen GDDR5 mit 8 GBit/s, was den Durchsatz auf bis zu 256 GByte/s erhöht. Aber auch das ist immer noch weniger als bei einer Radeon R9 290 mit 320 GByte/s.

Ein Teil des Rückstandes wird durch die verbesserte Delta Color Compression ausgeglichen. Dieser verringert die Menge an Informationen, die über den Bus geschickt werden muss. AMD bietet hier mit 2/4/8:1 Lossless Ratios ähnliche Werte wie Nvidias Pascal-Architektur. Außerdem profitiert Polaris 10 vom mit 2 MByte größeren L2-Cache, den wir erstmals mit der Fiji-Generation zu Gesicht bekamen. Das kann dazu führend, dass weniger Daten in den GDDR5-Speicher wandern müssen und somit dafür sorgen, dass die GPU weniger auf ein breites Speicherinterface und einen hohen Datendurchsatz angewiesen ist.

Dennoch muss das schmalere Backend der GPU einen Einfluss auf die Leistung haben, sobald die Auflösung angehoben oder mehr Anti-Aliasing genutzt wird. Wir waren sehr neugierig, wie Polaris wohl im Vergleich zu Hawaii abschneiden würde, wenn der zu bewältigende Workload intensiver wird. Aus diesem Grund haben wir Grand Theft Auto V bei 1920 x 1080 Pixeln und Grafikdetails auf Very High angeschmissen und dann das Anti-Aliasing dann stufenweise erhöht.

Während wir MSAA von “Aus” auf 2x und dann 4x hochschrauben, zeigt sich eindeutig, wie die Radeon RX 480 im Hinblick auf die durchschnittlichen FPS deutlich schneller einbricht als die R9 390. Wird Anti-Aliasing deaktiviert, dann kann die RX 480 97,3 FPS liefern, die R9 390 hingegen nur 90,4 FPS. Aber letztlich landet AMDs Radeon RX 480 bei 57,5 FPS, während die R9 390 durchschnittlich 62,9 FPS liefern kann.

Seiten:

Tags: , , , ,

Ebenfalls interessant...

Schreibe einen Kommentar

Privacy Policy Settings

Google Analytics Wir sammeln anonymisierte Daten darüber, welche Beiträge und News gelesen werden. Wir ermitteln dabei auch die Zeit - ebenfalls anonymisiert - wie lange ein Beitrag gelesen wurde. Dadurch können wir einfacher Themen anbieten, die Sie interessieren.
This website stores some user agent data. These data are used to provide a more personalized experience and to track your whereabouts around our website in compliance with the European General Data Protection Regulation. If you decide to opt-out of any future tracking, a cookie will be set up in your browser to remember this choice for one year. I Agree, Deny
600 Verbiete Google Analytics, mich zu verfolgen