Skip to main content

Digital Foundry - Nvidia GeForce GTX 970 Revisited

Nach den jüngsten Enthüllungen: Beeinflusst das RAM-Setup tatsächlich die Spiele-Performance?

Als die GTX 970 im letzten Jahr erschien, wurde sie von der Tech-Presse - Digital Foundry mit eingeschlossen - einstimmig gelobt. Tatsächlich bezeichneten wir sie als Grafikkarte, „die nahezu den kompletten High-End-Grafikkartenmarkt ausradiert“. Sie schlug die R9 290 und R9 290X und zwang AMD zu deutlichen Preissenkungen, gleichermaßen bot sie noch immer den Löwenanteil an Performance der wesentlich teureren GTX 980. Jüngste Ereignisse haben dieses bemerkenswerte Produkt aber seines Glanzes beraubt. Nvidia hat der Presse falsche Spezifikationen überlassen, was unlängst in einer Sammelklage wegen „irreführender Werbung“ resultierte.

Fassen wir kurz zusammen, was falsch gelaufen ist. Nvidias Reviewers' Guide stellte die GTX 970 als leicht beschnittene Version der teureren GTX 980 dar. Sie basiert auf der gleichen Architektur und nutzt das gleiche GM204-Silizium, aber weniger CUDA-Kerne (1.664 statt 2.048) und die Taktrate wurde von 1.216 MHz auf der GTX 980 auf 1.178 MHz bei der günstigeren Karte reduziert. Ansonsten kommt die gleiche Technik zum Einsatz - oder zumindest teilte man uns das so mit. Dieser Artikel von Anandtech geht sehr detailliert darauf ein. Monate später kamen weitere Anpassungen ans Tageslicht. Die GTX 970 nutzt 56 ROPs, nicht 64, während der L2-Cache nur 1,75 statt 2 MB groß ist.

Das größte Problem betrifft jedoch den verbauten Arbeitsspeicher. Die GTX 980 bietet 4 GB GDDR5, die in einem einzelnen physischen Block verbaut sind und mit einer Taktrate von 224 GB/s laufen. Die GTX 970 nutzt eine Partition mit 3,5 GB und einer Taktrate von 196 GB/s sowie ein zweite Partition mit 512 MB bei einer wesentlich langsameren Taktrate von 28 GB/s. Nvidias Treiber räumt dem schnelleren RAM automatisch Priorität ein und nutzt die langsamere Partition nur, wenn es sich nicht vermeiden lässt. Und selbst dann verteilt der Treiber die Ressourcen laut Nvidia auf intelligente Art und Weise, wodurch lediglich Daten mit niedriger Priorität im langsameren RAM landen sollen.

Unabhängig davon, welche Technik nun bei der Verteilung im Arbeitsspeicher zum Einsatz kommt, ist klar, dass der Treiber im Großen und Ganzen erfolgreich die Ressourcen verwaltet. Soweit uns bekannt ist, wurden in keinem Test irgendwelche Performance-Probleme erwähnt, die sich aus dem partitionierten Arbeitsspeicher ergaben. Selbst die akribischste Form der Performance-Analyse - mit FCAT (das wir bei all unseren Tests einsetzen) ermittelte Frame-Time-Messwerte - zeigte keine Probleme. Es gab keinen Grund, an den falschen Spezifikationen von Nvidia zu zweifeln, denn das Produkt bot genau die Performance, die zu erwarten war - ohne zusätzliche Mikro-Ruckler oder andere Artefakte. Haben wir etwas übersehen? Irgendwas? Da wir nun das spezielle Hardware-Setup der GTX 970 kennen, können wir dem näher auf den Grund gehen.

Wir haben die GTX 970 und GTX 980 nun eine Weile getestet und neue Benchmarks erstellt. Dieses Video fasst unsere Erkenntnisse zusammen. Wir können Ruckler auf der 970 herbeiführen, die auf der 980 unter gleichen Bedingungen nicht vorhanden sind. Dazu sind jedoch extreme Einstellungen nötig, die das Spielerlebnis aktiv beeinflussen.Auf YouTube ansehen

Bevor wir mit unseren Tests begannen, befragten wir eine Reihe von hochkarätigen Entwicklern dazu - darunter auch Leute, die an ihren nächsten Next-Gen-Engines arbeiten, und andere, die in der Vergangenheit schon mit Nvidia zusammengearbeitet haben. Einem prominenten Entwickler mit starkem PC-Hintergrund zufolge ist das Ganze kein großes Problem. Sein Team stimme darin überein, dass es hier "mehr Rauch als Feuer" gebe. Ein weiterer Kontakt ging etwas näher ins Detail.

"Primär wird das VRAM üblicherweise durch Texturen belegt, direkt dahinter kommen die Draw Buffer (Vertex, Index, Uniform Buffers, etc.)", so Grafikprogrammierer Leszek Godlewski von The Astronauts. "Ich würde mir zumindest kurzfristig keine Gedanken über eine Verschlechterung der Performance machen. Tatsächlich sind auch 3,5 GB VRAM sehr viel und bieten jede Menge Spielraum. In Wahrheit gibt es noch gar nicht viele Spiele, die die GPU überhaupt mit so vielen Daten beanspruchen. Und selbst wenn diese Spiele erscheinen, werden Nvidias Techniker sicherlich ihren Treiber anpassen (wie sie es bei High-Profile-Spielen immer tun). Ihr wärt überrascht, wenn ihr wüsstet, wie viel Latenz man durch eine clevere Planung verbergen kann.“

Die Frage, was eigentlich in der langsameren Partition des RAM landet, bestimmt maßgeblich, wie sich die seltsame Architektur der GTX 970 längerfristig schlagen wird. Wir sind es gewohnt, von schnellerem RAM bessere Performance zu sehen, und doch ist die Tatsache die, dass nicht alle GPU-Anwendungsfälle auch nur annähernd die massiven Mengen an Bandbreite benötigen, die Top-GPUs zu liefern imstande sind.

Konstante Buffer oder Shader (read-only, nicht etwa read-modify-write) machen es sich anstandslos in langsamerem Speicher gemütlich, weil sie klein und damit schnell zu lesen sind und sich auf eine Reihe an Cache-freundlichen GPU-Ressourcen aufteilen. Compute-lastige, aber wenig datenintensive Aufgaben passen ebenfalls ohne Probleme in die langsamere Partition. Nvidias Treiber sollte diese Elemente ausmachen und automatisch der kleineren Partition zuteilen können. Auf der anderen Seite sähen wir nur ungern, wie ein Spiel mit Virtual Texturing - wie Rage oder Wolfenstein - seine Assets auf den langsamen und schnellen Teil des RAM aufsplittet. Das wäre alles andere als schön. Allerdings lief Wolfenstein auf höchsten Einstellungen und in 1440p in unseren Tests ausgezeichnet.

Evolves VRAM-Gebrauch (am oberen Rand des Bildes) im Vergleich zwischen GTX 970, 980 und Titan. Optisch ist das Spiel auf allen Systemen identisch, aber die großen Unterschiede in der VRAM-Belegung zwischen 970 und 980 sind merkwürdig. Klickt auf das Bild für einen näheren Blick auf den Vergleich.

Zu Beginn unseres Tests prüften wir Kommentare in diversen Foren, in denen es um Spiele geht, mit denen die GTX 970 anscheinend ein Problem hat. Spiele wie Watch Dogs und Far Cry 4 werden häufig erwähnt, weil sie stottern sollen. In unseren Tests tun sie das, egal, ob auf GTX 970, GTX 980 oder sogar der Titan mit 6 GB. Bis heute wurden Watch Dogs' Probleme nicht behoben, während der einzige Weg zu einem stotterfreien FC 4 über die .ini-Datei führt. Hier muss man die qualitativ hochwertigsten Texture-Mip-Maps abstellen. Call of Duty Advanced Warfare und Ryse zeigen ebenfalls keine Probleme - beide nutzen viel VRAM, aber hauptsächlich als Textur-Cache. Unterm Strich sehen diese Spiele also auf einer 2-GB-Karte genauso gut aus wie auf einer mit 3 GB. Es wird nur mehr im Hintergrund gestreamt, sobald weniger VRAM zur Verfügung steht.

Tatsächlich ist es nicht allzu einfach, 3,5 GB RAM in den meisten aktuellen Titel zu übersteigen. Dazu braucht man Multi-Sampling-Anti-Aliasing, Downsampling von höheren Texturen und manchmal beides. Auf fortschrittlichen Render-Engines sind beide ein idiotensicherer Weg, eure GPUs in die Knie zu zwingen. Traditionell wird MSAA manchmal in aktuelle Titel gezwängt, aber schon 2x MSAA kann die Performance um 20 bis 30 Prozent drücken. Moderne Spiel-Engines, die auf Deferred-Shading basieren, sind nicht wirklich kompatibel mit MSAA, und zwar in einem Maße, dass viele Spiele es überhaupt nicht unterstützen und andere nur unter einbrechenden Bildraten. Nehmen wir zum Beispiel Far Cry 4. Während unseres Face-off schraubten wir das MSAA rauf, um die PC-Version im besten Licht zu zeigen. Dabei stellte sich heraus, dass das Aliasing an Gras- und Blätterkanten deutlich schlimmer war als in den Konsolenversionen (ein Umstand, der auch mit Nvidias proprietärem TXAA noch Bestand hatte). Die besten Resultate erzielte unterdessen SMAA, das sich auf die Bildrate kaum auswirkt - ganz anders als die Multi-Sampling-Alternativen.

Schaut man sich einen anderen Titel an, der MSAA unterstützt - Assassin's Creed Unity -, zeigt die Tabelle unten, warum Multi-Sampling-Post-Processing unter den Post-Process-AA-Alternativen nicht mehr so beliebt ist. Wir benutzten hier eine GTX Titan, da die VRAM-Ausnutzung in einer Umgebung getestet werden soll, wo dieser praktisch unbegrenzt zur Verfügung steht - nur dass er das eben wohl doch nicht ist. Selbst mit nur 1080p erreicht die Speichernutzung bei 8x MSAA bereits 4,6GB, bei 1440p ist der riesige Speicher der Titan bereits aufgebraucht. Die Performance-Daten sprechen für sich selbst: Bei 1440p erreicht man nur mit Post-Process-Antialiasing spielbare Frameraten und selbst hier geht es bis auf 20 Frames im Benchmark-Test runter. Im Vergleich dazu zeigt eine aktuelle Demonstration von Far Cry 4s exzellentem HRAA - einer Kombination mehrerer AA-Techniken inklusive SMAA und temporäreren Super-Sampling - hervorragende Ergebnisse mit einer Renderzeit von nur 1,65ms bei 1080p.

Eine Illustration, wie viele GPU-Ressourcen von MSAA aufgebraucht werden. Derzeit gelingt es AC Unity nur mit FXAA, zumindest meistens über 30fps zu bleiben, und wir denken, dass die GPU Ressourcen besser genutzt werden können als für Multi-Sampling. In diesem Fall ist es eine Schande, dass Ubisoft nur FXAA als Post-Processing unterstützt.
AC Unity/Ultra Hoch/GTX Titan FXAA 2x MSAA 4x MSAA 8x MSAA
1080p: VRAM Ausnutzung 3.517 MB 3.691 MB 4.065 MB 4.660 MB
1080p Min FPS 28,0 24,7 20,0 12,9
1080p Durch. FPS 46,1 40,2 33,6 21,2
1440p: VRAM Ausnutzung 3.977 MB 4.343 MB 4.929 MB 6.069 MB
1440p Min FPS 20,0 16,0 12,9 7,5
1440p Durch. FPS 30,3 25,6 21,5 13,0

Um dann wirklich das Spiel ruinierende Ruckeln, das einen klaren Unterschied zwischen GTX 970 und der besseren GTX 980 zeigt, zu bekommen, mussten wir uns wirklich anstrengen. Wir nutzten zwei Karten im SLI-Modus - um den Flaschenhals der Rechenleistung so weit wie möglich aufzuheben -, dann ließen wir AC Unity auf den ultra-hohen Einstellungen mit 1440p und 4x MSAA laufen. Wie man im Video unten sieht, erzeugt das ein Ruckeln, das auf der GTX 980 nicht ganz so dramatisch ausfällt. Das ist jedoch wirklich weit gegriffen, alles nur für eine minimale Qualitätsverbesserung. Post Process FXAA erreicht fast eine feste 1440p60-Darstellung bei diesem Spiel auf einer SLI-Installation und sieht fantastisch aus.

Die Tests zeigten auch eine deutlich geringere Speicherausnutzung als bei der Titan, was darauf hindeutet, dass das Ressourcenmanagement des Spiels die geladenen Assets entsprechend des verfügbaren VRAMs anpasst. Basierend auf den Titan-Tests hätte 2x MSAA sowohl den VRAM der GTX 970 als auch der GTX 980 an die Grenze bringen sollen, tat dies aber nicht. Nur der Sprung zu 4x MSAA brachte dann die Probleme mit sich.

Es war nicht einfach, noch mehr störendes Ruckeln zu finden, aber wir haben es geschafft - allerdings nur mit extremen Einstellungen, zu denen weder wir noch der Entwickler anraten würden. Lässt man Mordors Schatten mit Ultra-Einstellungen auf 1440p laufen, nutzt dazu das Down-Sampling von 4K und stellt Ultra-Texturen ein, zeigt sich ein deutlicher Unterschied zwischen der GTX 970 und GTX 980, der ganz klar auf die unterschiedlichen Speicherkonstruktionen zurückzuführen sein muss. Um ehrlich zu sein, ist das Ergebnis bei beiden Karten alles andere als optimal, aber die Bereiche, bei denen wir auf der GTX 970 ein deutliches Ruckeln sahen, waren auf der GTX 980 weniger deutlich. Tatsache ist aber auch, dass der Entwickler bei weniger als 6 GB VRAM von den Ultra-Texturen abrät, und das schon bei 1080p. Wechselt man dann auch zu den empfohlenen hohen Textur-Einstellungen, verschwindet das Ruckeln und das Spiel läuft anständig.

PlayStation 4
Ultra Textur-Qualität
Hohe Textur-Qualität
Mittlere Textur-Qualität
Mordors Schatten ist ein idealer Titel, um die VRAM-Probleme zu illustrieren. Um auf Konsolenqualität zu kommen - die Entsprechung sind die hohen Textur-Einstellungen -, braucht man wenigstens 3 GB VRAM. Derzeit reichen bei den meisten anderen Titeln 2 GB für das 1080p-Gaming, aber das dürfte sich noch in diesem Jahr ändern.
Ultra Textur-Qualität
Hohe Textur-Qualität
Mittlere Textur-Qualität
Mordors Schatten ist ein idealer Titel, um die VRAM-Probleme zu illustrieren. Um auf Konsolenqualität zu kommen - die Entsprechung sind die hohen Textur-Einstellungen -, braucht man wenigstens 3 GB VRAM. Derzeit reichen bei den meisten anderen Titeln 2 GB für das 1080p-Gaming, aber das dürfte sich noch in diesem Jahr ändern.
Ultra Textur-Qualität
Hohe Textur-Qualität
Mittlere Textur-Qualität
Mordors Schatten ist ein idealer Titel, um die VRAM-Probleme zu illustrieren. Um auf Konsolenqualität zu kommen - die Entsprechung sind die hohen Textur-Einstellungen -, braucht man wenigstens 3 GB VRAM. Derzeit reichen bei den meisten anderen Titeln 2 GB für das 1080p-Gaming, aber das dürfte sich noch in diesem Jahr ändern.
Ultra Textur-Qualität
Hohe Textur-Qualität
Mittlere Textur-Qualität
Mordors Schatten ist ein idealer Titel, um die VRAM-Probleme zu illustrieren. Um auf Konsolenqualität zu kommen - die Entsprechung sind die hohen Textur-Einstellungen -, braucht man wenigstens 3 GB VRAM. Derzeit reichen bei den meisten anderen Titeln 2 GB für das 1080p-Gaming, aber das dürfte sich noch in diesem Jahr ändern.

Letztlich haben wir alles versucht, um die GTX 970 über ihre Grenzen zu treiben, und es nicht mit einer einzigen Karte geschafft, ohne dass vorher Rechenleistung oder Bandbreite an ihre Grenzen stießen und die Performance auf unspielbares Niveau einbrechen ließen. Wir konnten kein Ruckeln innerhalb der sinnvollen Spieltests feststellen, das nicht auch bei der GTX 980 aufgetreten wäre, auch wenn die Artefakte auf der teureren Karte weniger offensichtlich waren - aber das lag einfach daran, dass sie schneller ist. Kurz gesagt ändert sich nichts an unseren bisherigen Tests der Karte und die GTX 970 bleibt in ihrer Preisklasse die derzeit beste Karte, die man kaufen kann.

Die einzige Frage, die sich stellt, ist die, ob Spiele des Weges kommen werden, die die 3,5-GB-Grenze durchbrechen werden, und ob die Nvidia-Treiber dann sicherstellen können, dass die langsameren VRAM-Anteile effektiv genutzt werden. Man sollte die Treiber-Abteilung bei Nvidia dabei nicht unterschätzen. Eine Quelle bestätigte uns, dass die Optimierung sogar das Austauschen von rechenlastigen Shadern zugunsten von handgeschriebenen Ersatz-Shadern beinhaltet, die dann die Leistung - auf Kosten immer größerer Treiber-Downloads - verbessern. Bei diesem Aufwand fällt es nicht schwer, sich vorzustellen, dass zumindest alle großen Releases auf der GTX 970 die Aufmerksamkeit erhalten werden, die sie verdienen.

Die Zukunft: Wie viel VRAM wird man brauchen?

Nvidia hat zuvor auch schon aufgeteilten VRAM genutzt, bis zurück zur GTX 550 Ti. Aber nie zuvor hat es für einen solchen Wirbel in den Kreisen der PC-Enthusiasten gesorgt, wie es bei der GTX 970 der Fall ist, was wohl auch an der Art und Weise liegt, wie die Teilung hier entdeckt wurde. Dazu kommt noch Nvidias fehlende Vorabinformation zu dieser Tatsache. Wichtiger jedoch dürfte die Frage sein, welchen Einfluss der kombinierte Speicher der Konsolen auf die Entwicklung von PC-Spielen haben wird, wo System- und Videospeicher immer noch getrennt sind. Wie viel Speicher braucht man, um eine GPU umfänglich zukunftssicher auszustatten - und wie schnell sollte dieser Speicher sein?

Die Zukunft der Grafikkarten scheint in die Richtung zu gehen, dass sie den Flaschenhals der Bandbreite mit gestackten Speichermodulen begegnen. Ein renommierter Entwickler jedoch kann sich vorstellen, dass der Weg in eine andere Richtung führen kann:

"Ich kann mir durchaus vorstellen, dass eine GPU 1 GB ultra-schnelles DDR6 und 10 GB des 'langsamen' DDR3 nutzt. Die meisten Render-Operationen sind äußerst Cache-abhängig und deshalb versuchen die meisten Top-Entwickler heutzutage, die Zugriffsmuster für den Cache zu optimieren. Mit den richtigen Zugriffsmustern, dem richtigen Daten-Pre-Loading und Swapping kann man eigentlich die ganze Zeit im L1/L2-Cache bleiben."

Während der gemeinsame Speicher der gegenwärtigen Konsolen den PC-Spielern noch Kopfschmerzen bereiten wird, macht es die Bandbreiten-Limitierung in deren APU-Prozessoren notwendig, den Code so zu optimieren, dass die kritischen Programmteile in dem Speicher laufen, der direkt an die GPU angeschlossen ist, was wiederum die Notwendigkeit für Massen von Hochgeschwindigkeits-RAM sinken lässt. Das ist einer der Gründe, warum die Maxwell-Architektur, die die GTX 970 antreibt, so gut funktioniert - sie ist um einen viel größeren L2-Cache herum aufgebaut, als es bei ihrem Vorgänger der Fall war.

Wenn man jedoch in die Zukunft blickt, kann man einfach nicht mit Sicherheit sagen, wie viel VRAM bei einer GPU nötig ist, damit sie durch die gegenwärtige Konsolengeneration hindurch reicht und die PC-Goodies wie höher aufgelöste Texturen, verbesserte Effekte und höhere Auflösungen unterstützt. Es ist mittlerweile klar, dass 2 GB das untere Minimum für Konsolen-äquivalentes 1080p-Gaming sind, wobei man eher 3 GB haben sollte. Die heutigen GPUs können relativ leicht mithalten, aber die kommenden Spiele-Engines können durchaus Anforderungen jenseits der 4 GB an die High-End-Karten stellen. Wird für die GTX 970 eine Zeit kommen, in der die 3,5 GB des schnellen RAM nicht mehr genug sind? Die Wahrheit ist, dass wir das nicht wissen - aber je mehr die Current-Gen-Konsolen ausgereizt werden, desto wichtiger wird die Größe des vorhandenen Speichers auf der Grafikkarte werden.

"Je mehr wir die Hardware ausreizen und je besser die Qualität und Auflösung der Assets wird, desto mehr Speicher werden wir brauchen und desto schneller wollen wir ihn haben", so eine gut informierte Quelle aus der Entwickler-Community. "Die Spiele, die wir derzeit in der Entwicklung haben, stoßen bei den Konsolen links, rechts und mittig an die Speichergrenzen. Daher verschwindet das Thema Speicheroptimierung derzeit nie von meiner Liste."

Schon gelesen?

Richard Leadbetter Avatar
Richard Leadbetter: Rich has been a games journalist since the days of 16-bit and specialises in technical analysis. He's commonly known around Eurogamer as the Blacksmith of the Future.
Verwandte Themen