Nvidia GeForce RTX 2060 FE im Test – setzt diese Karte neue Maßstäbe in der Mittelklasse?

Turing und mögliche Leistungsverbesserung in den bestehenden Spielen

Bekannt ist ja seit dem Launch der GeForce RTX 2080 Ti und RTX 2080, dass Turing-basierte Karten nicht dramatisch höhere CUDA-Kernzahlen aufweisen als ihre Vorgängergenerationen und zudem auch nicht ganz so hohe Boost-Taktraten besitzen. Aber man hat sich durchaus einige Mühe gegeben, Turing für eine bessere Leistung pro Kern zu optimieren. Zunächst lehnt sich Turing so ziemlich genau an das Volta-Playbook an, um die gleichzeitige Ausführung von FP32- und INT32-Operationen zu unterstützen. Wenn man nun davon ausgeht, dass die Turing-Kerne bei einer bestimmten Taktfrequenz eine bessere Leistung erzielen können als Pascal, dann erklärt auch und vor allem diese spezielle Fähigkeit weitgehend, warum das am Ende wirklich so ist.

Doch um was geht es genau? In früheren Generationen bedeutete ein einziger mathematischer Datenpfad, dass ungleiche Befehlsarten nicht gleichzeitig ausgeführt werden konnten, so dass die Fließkomma-Pipeline stillstand, wenn z.B. in einem Shader-Programm Nicht-FP-Operationen benötigt wurden. Bei Volta versuchte man schließlich dies zu ändern, indem man getrennte Pipelines schuf. Obwohl Nvidia die zweite Dispositionseinheit, die jedem Warp-Scheduler zugeordnet war, eliminierte, stieg der einst problematische Durchsatz der Instruktionen. Turing verfolgt nun einen ähnlichen Ansatz, indem es eine Warp-Scheduler- und Dispositionseinheit pro Quad (vier pro SM) gibt und man gleichzeitig Anweisungen für die INT32- und FP32-Pipeline erteilen kann.

Laut Nvidia sind die potenziellen Gewinne signifikant. In einem Spiel wie Battlefield 1 gibt es auf 100 Gleitkomma-Anweisungen z.B. 50 Nicht-FP-Anweisungen im Shader-Code. Andere Titel tendieren noch stärker zur Gleitkomma-Mathematik. Trotz der Trennung von FP32- und INT32-Pfaden in den Blockdiagrammen, schreibt Nvidia in den technischen Erklärungen, dass jeder Turing SM 64 CUDA-Cores enthält, um die Dinge möglichst einfach zu halten. Der Turing SM umfasst zudem noch 16 Lade-/Speichereinheiten, 16 Spezialfunktionseinheiten, 256KB Registerdateispeicher, 96KB Shared Memory und L1 Data Cache, vier Textureinheiten, acht Tensor-Kerne sowie einen RT-Kern.

Auf dem Papier erscheint ein SM beim Pascal-Vorgänger GP102 komplexer und bietet doppelt so viele CUDA-Cores, Lade-/Speichereinheiten, SFUs, Textureinheiten, genauso viel Kapazität für Registerdateien und sogar mehr Cache. Aber man muss auch berücksichtigen, dass der TU102 über bis zu 72 SMs verfügt, während der GP102 mit 30 SMs auskommen muss. Das Ergebnis ist ein Turing-basiertes Flaggschiff mit 21% mehr CUDA-Cores und Textureinheiten als die GeForce GTX 1080 Ti, aber auch viel mehr SRAM für Register, Shared Memory und L1-Cache, ganz zu schweigen von 6 MB L2-Cache, der die 3 MB des GP102 sogar verdoppelt.

Diese Erhöhung des On-Die-Speichers spielt eine weitere, sehr entscheidende Rolle bei der Leistungssteigerung, ebenso wie die hierarchische Organisation. Wie beim GP102 und GP104 sind auch die Streaming Multiprozessoren des TU102 in vier Blöcke unterteilt. Aber während sich die Pascal-basierten GPUs einen 24KB L1 Daten- und Textur-Cache zwischen jedem Blockpaar und 96KB gemeinsamem Speicher über die SM teilen, vereinheitlicht TU102 diese Einheiten in einer flexiblen 96KB-Struktur.

Der Vorteil der Vereinheitlichung besteht darin, dass unabhängig davon, ob ein Workload für L1 oder Shared Memory optimiert ist, On-Chip-Speicher genutzt wird, anstatt wie bisher untätig zu bleiben. Das Verschieben der L1-Funktionalität nach unten hat den zusätzlichen Vorteil, dass sie auf einen breiteren Bus gelegt wird, wodurch die L1-Cache-Bandbreite verdoppelt wird (während die Bandbreite des gemeinsamen Speichers unverändert bleibt).

Im Vergleich von TPC zu TPC (d.h. bei gleicher Anzahl von CUDA-Cores) unterstützt Pascal 64B/Takt-Cache Hits pro TPC, Turing unterstützt 128B/Takt-Cache Hits, d.h. auch hier liegt die Leistung 2x höher. Und da diese 96KB als 64KB L1 und 32KB Shared Memory (oder umgekehrt) frei konfiguriert werden können, kann die L1-Kapazität pro SM ebenfalls um 50% höher sein. Übrigens sieht Turings Cachestruktur auf den ersten Blick sehr ähnlich aus wie Kepler, wo man über einen konfigurierbaren 64KB Shared Memory/L1-Cache verfügte.

Zur Erklärung: es gibt drei verschiedene Datenspeicher – den Textur-Cache für Texturen, den L1-Cache für generische LD/ST-Daten und Shared Memory für die Berechnung. In der Kepler-Generation war die Textur getrennt (der schreibgeschützte Daten-Cache), während L1 und Shared kombiniert wurden. In Maxwell und Pascal hatte man auch noch zwei getrennte Strukturen, nur etwas modifiziert. Nun werden alle drei zu einem gemeinsamen und konfigurierbaren Speicherpool zusammengefasst.

Zusammenfassend stellt Nvidia in den Raum, dass die Auswirkungen der neu gestalteten mathematischen Pipelines und Speicherarchitektur eine Leistungssteigerung von 50% pro CUDA-Kern ermöglichen! Um diese datenintensiven Kerne effektiver zu versorgen, hat Nvidia den TU102 mit GDDR6-Speicher gepaart und die Technologien zur Reduzierung der Datenströme (wie z.B. die Delta-Farbkompression) weiter optimiert.

Wenn man die 11 Gb/s GDDR5X-Module der GeForce GTX 1080 Ti mit dem 14 Gb/s GDDR6-Speicher der GeForce RTX 2080 Ti vergleicht, die beide auf einen aggregierten 352-Bit-Bus zugreifen können, dann ergibt sich eine um 27% höhere Datenrate und Spitzenbandbreite auf der gesamten Karte. Je nach Spiel, und vor allem dann, wenn die GeForce RTX 2080 Ti das Senden von Daten über den Bus reduzieren kann, steigt der effektive Durchsatz dann noch mehr um zweistellige Prozentsätze.

 

 


Kommentare (107)

  • MopsHausen schrieb am
    Dark_Knight hat gesagt
    Das Feature von RTX, das ja an sich sicher gut ist, ist ja auch nicht das Problem was wir im Moment haben. Sobald die Entwickler soweit mit RT eingearbeitet sind, wird es sicher gute Ergebnisse geben. AMD ist ja auch dran RT ein zu binden. Das Problem ist einzig bei nVidia zu suchen, die eine neue Technik verbauen, die noch keiner der Spieleentwickler nutzt bis jetzt. Es wurde aber auf der Gamescon schon groß angekündigt (als wenn es schon nutzbar wäre) und auch mit solchen Marketingsprüchen wie "It just work's" befeuert. Hätte nVidia entweder den Entwicklern (gibt ja genügend nVidia unterstützte Studios) mehr Zeit gegeben (also in dem Fall einfach mal 6 Monate eher die Technik offen gelegt) oder RT mit der nächsten Generation gebracht, dann hätten sicher alle mehr davon gehabt. So zahlt man als RTX Käufer eben ein Feature was zum Launchzeitpunkt gar nicht oder nur bedingt nutzbar war. Und daran hat sich jetzt auch Monate später nichts geändert. Jetzt im neuen Jahr, kommen nach und nach Spiele raus, die die neuen Features nutzen wollen. Aber ob die Umsetzung diesen dann endlich im vernünftigen Rahmen gelingt, steht halt auch noch in den Sternen. Und wenn man dann eine RTX 2060 hat mit nur 6GB VRAM, die aber RTX und/oder DLSS nutzen soll, wird es doch schon eng. Vor allem da ja gerade RTX mehr Leistung kostet und halt auch den VRAM ebenso benötigt. Wird interessant ob die 6GB dann noch ausreichen, oder ob bei RTX On dann einfach Ende mit der doch so guten Leistung der Karte ist.
    Das ist quasi das Henne - Ei Problem das kann man ewig so weiter drehen .
  • Dark_Knight schrieb am
    Das Feature von RTX, das ja an sich sicher gut ist, ist ja auch nicht das Problem was wir im Moment haben. Sobald die Entwickler soweit mit RT eingearbeitet sind, wird es sicher gute Ergebnisse geben. AMD ist ja auch dran RT ein zu binden. Das Problem ist einzig bei nVidia zu suchen, die eine neue Technik verbauen, die noch keiner der Spieleentwickler nutzt bis jetzt. Es wurde aber auf der Gamescon schon groß angekündigt (als wenn es schon nutzbar wäre) und auch mit solchen Marketingsprüchen wie "It just work's" befeuert. Hätte nVidia entweder den Entwicklern (gibt ja genügend nVidia unterstützte Studios) mehr Zeit gegeben (also in dem Fall einfach mal 6 Monate eher die Technik offen gelegt) oder RT mit der nächsten Generation gebracht, dann hätten sicher alle mehr davon gehabt. So zahlt man als RTX Käufer eben ein Feature was zum Launchzeitpunkt gar nicht oder nur bedingt nutzbar war. Und daran hat sich jetzt auch Monate später nichts geändert. Jetzt im neuen Jahr, kommen nach und nach Spiele raus, die die neuen Features nutzen wollen. Aber ob die Umsetzung diesen dann endlich im vernünftigen Rahmen gelingt, steht halt auch noch in den Sternen. Und wenn man dann eine RTX 2060 hat mit nur 6GB VRAM, die aber RTX und/oder DLSS nutzen soll, wird es doch schon eng. Vor allem da ja gerade RTX mehr Leistung kostet und halt auch den VRAM ebenso benötigt. Wird interessant ob die 6GB dann noch ausreichen, oder ob bei RTX On dann einfach Ende mit der doch so guten Leistung der Karte ist.
  • arcDaniel schrieb am
    Ich kann mir gut vorstellen, dass Entwickler begeistert sind. Ich denke eher das Problem ist, dies ist natürlich nicht Nvidia exklusiv, ist, dass der 0815 Gamer für Hardware Features mit zahlt, welcher er nie benutzen wird oder gar kann. Der Falls RTX floppen würde oder kein Spiel, welches mir gefällt, erscheint was die Features nutzt, habe ich definitv zuviel gezahlt (eigentlich auch jetzt schon, Nvidia Steuer....)
  • Igor Wallossek schrieb am
    Beim Gaming, nun ja - erst mal abwarten. Im Pro-Bereich haben die ersten Renderfarmen dicht gemacht und diverse Aktien sind im freien Fall. Es ist wirklich effizienter, am Tag sieben Plots durchzurendern und zu beurteilen, als nach drei Tagen ein Ergebnis zu sehen, zu verwerfen und noch einmal rendern zu lassen. Time is money. Ihr vergesst immer, dass die RTX eigentlich abgespeckte Quadros sind. ich habe in Kanada auch mit einigen Unreal-Machern reden können - die sind alle aus dem Häuschen. Ich bin mir durchaus sicher, dass da noch was geht. Und wenn nicht, geht Jensen :D
  • Railgun schrieb am
    Abwarten, ich denke das raytracing genauso ein Flop wird wie physix...

Ebenfalls interessant...