Der Todescocktail für Nvidias RTX-Karten: ein ganzer Mix aus verschiedenen Problemen soll verantwortlich für die Ausfälle sein | Nvidia GeForce RTX Graphics Cards Are Dying

Schon wieder eine Nvidia-News? Wenn man nur lange genug rumfragt, verdichten sich die Informationen immer weiter und es fügt sich am Ende alles zu einem schönen Bild zusammen. Und es zeigt sich, es haben viele Recht, wenn auch nur indirekt. Denn die Ausfälle lassen sich eben nicht nur an einem einzigen Grund festmachen, sondern zeigen sehr schön was in der Summe passieren kann, wenn man sich nicht genügend Zeit nimmt. Zeitlicher Druck war noch nie ein guter Arbeitskollege. Doch immer schön der Reihe nach…

Just another Nvidia news? Well, it’s not that easy, but if you just ask around and long enough, the information becomes more and more condensed and it all ends up in a nice picture. And it turns out that many are right, even if only indirectly. Because the failures can not only be fixed at a one single reason, but show very nicely what can happen in the sum, if one does not take oneself enough time. Time pressure has never been a good colleague. But always one after the other…

 

1. Speicherprobleme / Memory issues

Es gab sie wirklich , das muss man nicht schönreden. Auch wenn der eine oder andere Kollege meinte, es wäre Nonsens. Aber es war eben die Frage, woran die jeweils vorliegende Karte gestorben ist. Doch auch die Speicherproblematik unterteilt sich noch einmal in zwei unterschiedliche Szenarien. Da war einerseits der Micron-Speicher als solcher, der ganz offensichtlich unter bestimmten Bedingungen doch nicht ganz so solide war, wie in den Specs beschrieben und dann war da ja noch das Ding mit den kalten Lötstellen, auf das ich gleich auch noch im Punkt 2 eingehen werde.

They were real, there’s no need to gloss it over. Even if one or the other colleague thought it was nonsense. But it was the question what caused the death of the card in question. But also the memory problem is divided into two different scenarios. On the one hand there was the Micron memory as such, which was obviously not quite as solid under certain conditions as described in the Specs and then there was the thing with the cold solder joints, which I will also discuss in point 2.

Fakt ist, dass thermische Probleme aufgetreten sein müssen, wie ich sie auch in meinem Test mit den Infrarot-Messungen beobachten konnte. Für mich war es allerdings auch interessant, Feedback von einzelnen Herstellern bekommen zu haben, die mich auf zwei mögliche Folgen hinwiesen. Die erste Folge betraf eben genau diese Micron-Module, bei denen die Qualitätsstreuung ziemlich hoch gewesen sein soll. Somit ist nicht jedes Micron-Modul per se schlecht, aber es reicht ja bereits ein einziger Irrläufer aus, um eine Karte komplett oder teilweise außer Gefecht zu setzen.

The fact is that thermal problems must have occurred, as I was able to observe in my test with infrared measurements. For me it was also interesting to get feedback from several manufacturers who pointed out two possible consequences. The first issue concerned exactly these Micron modules, where the quality scatter is said to have been quite high. So not every Micron module is bad as such, but a single false module is enough to disable a card completely or partially.

Rein statistisch gesehen, liegt die wahrscheinliche Ausfallrate und Fehlerhäufigkeit einer GeForce RTX 2080 Ti mit ihren 11 Speichermodulen natürlich dann auch deutlich höher als die einer RTX 2080 oder 2070 mit nur 8 Modulen. Da aber diese „Volumenmodelle“ von Seiten der Hersteller als wichtiger betrachtet werden, hat Nvidia die an die Boardpartner gelieferten Bundles aus GPU und Speicher nunmehr laut Aussagen mehrerer Quellen komplett auf Samsung-Modelle umgestellt. Die GeForce RTX 2080 Ti soll demnächst folgen.

Die Problematik mit dem Speicher betrifft im Übrigen ja nicht nur die Founders Edition von Nvidia, sondern alle Hersteller in gleichem Maße, was auch erklärt, dass (einige wenige) Boardpartner-Karten im Eigendesign ebenfalls Probleme verursachten. Da es aber nicht so extrem viele gewesen sein sollen, ist auch die vorläufige RMA-Quote nicht übermäßig hoch und der Speicher auch nicht die Hauptursache, sondern nur ein Nebenschauplatz.

Statistically speaking, the probable failure rate and error rate of a GeForce RTX 2080 Ti with its 11 memory modules is of course much higher than that of an RTX 2080 or 2070 with only 8 modules. But since these „volume models“ are considered more important by the manufacturers, Nvidia has now completely switched the bundles of GPU and memory delivered to the board partners to Samsung models, according to several sources. The GeForce RTX 2080 Ti will follow soon.

The problem with the memory does not only concern the Founders Edition of Nvidia, but all manufacturers to the same extent, which also explains that (a few) board partner cards in their own design also caused problems. But since there were not so many, the RMA rate is not too high and the memory is not the main cause, but only a side issue.

 

2. Kalte Lötstellen / Cold solder points

Darüber hinaus bekam ich auch die Information, dass die Module teilweise sehr schwer zu verlöten gewesen sein sollen und es damit beim Reflow-Löten durchaus zu großen Qualitätsschwankungen gekommen sein könnte. Dann aber greift auch hier die langfristig die thermische Keule, denn wenn das Modul in diesem Fall auch nicht durch eine Überhitzung direkt stirbt, können Lötstellen durch das ständige Aufheizen bzw. Abkühlen „brechen“ bzw. sich lösen.

Normalerweise kann man solche Dinge mit länger dauernden Environmental- und Shock-Tests herausfinden, was aber im Vorfeld leider auch sehr viel Zeit benötigt, die nicht jeder investieren kann oder will. Ich habe vor Längerem ja mal eine Reportage über die Entwicklung  und das Testen von elektronischen Geräten geschrieben und diese eigentlich notwendige Vorgehensweise gilt wirklich branchenübergreifend.

In addition, I got the information that the modules were sometimes very difficult to solder and that reflow soldering could have resulted in large fluctuations in quality. In this case, the thermal problem also applies, because if the module does not die directly due to overheating, solder joints can „break“ or become loose due to constant heating and cooling.

Normally one can find out such things with longer lasting environmental and shock tests, but unfortunately this takes a lot of time in advance, which not everyone can or wants to invest. A long time ago I wrote a story about the development and testing of electronic devices and this really necessary procedure is indeed cross-industry.

Doch nicht nur der Speicher kann von den genannten Lötproblemen betroffen sein. Vor allem das große LBGA-Package der RTX 2080 Ti soll in einigen Fällen von Lötproblemen betroffen gewesen sein. Im Detail war die Rede von möglicherweise kalten bzw. fehlerhaften Lötstellen im SMT-Prozess, wo mittels des Reflow-Lötverfahrens der BGA-Chip mit der Platine (PCB) verbunden wird.

Die nachfolgende Grafik zeigt noch einmal das möglicherweise durch eine fehlerhafte SMT-Maske oder falsche Temperaturen verursachte Phänomen von fehlerhaften Kontakten zwischen BGA und PCB.

But not only the memory can be affected by these soldering problems. Especially the large LBGA package of the RTX 2080 Ti is said to have been affected by soldering problems in some cases. In detail, there was talk of possibly cold or faulty solder joints in the SMT process, where the BGA chip is connected to the circuit board (PCB) using the reflow soldering process.

The following graphic shows once again the phenomenon of faulty contacts between BGA and PCB, possibly caused by a faulty SMT stencil or wrong temperatures.

Nur komplette Abrisse bzw. fehlende Lötpillen („Balls“) können bei der Qualitätskontrolle mittels einfacher Funktionsprüfung vor Ort direkt festgestellt werden. Alles, was sich erst langsam und nach mehreren thermischen Vorgängen wie Aufheizen und Abkühlen herausstellt, kann nur vom eigenen Qualitätsmanagement herausgefunden werden, was aber bei Foxconn als Auftragsfertiger für Nvidias Founders Edition nicht perfekt funktioniert haben soll.

Anscheinend hat man sich entweder zu sehr auf seine eigene Routine verlassen oder schlichtweg zu wenig Zeit für längerwährende Tests gehabt (siehe oben). Oder vielleicht sogar beides, wer weiß das schon? Ich möchte mich hier jetzt nicht noch weiter in technischen Details verlieren, aber im Forenthread stehen noch viele Interessante Hinweise von unseren Forennutzern, die über einschlägige Erfahrungen in der Produktion (bis hin zum Underfill) verfügen. Auch das sollte sich der interessierte Leser gern zu Gemüte führen, denn es ist auf alle Fälle eine schöne Bereicherung des eigenen Wissens.

Only complete breaks or missing balls can be detected directly during the quality control by performing a simple functional test on site. Anything that only turns out slowly and after several thermal processes, such as heating and cooling, can only be found out by the company’s own quality management, but what Foxconn, as a contract manufacturer for Nvidia’s Founders Edition, is said to have not worked perfectly.

Apparently they either relied too much on their own routine or simply didn’t have enough time for longer tests (see above). Or maybe even both, who knows? I don’t want to get lost in technical details here, but there are still many interesting hints from our forum users in the forum thread, who have relevant experience in production (up to underfill). The interested reader should also take a look at this, because it is definitely a nice enrichment of one’s own knowledge.

 

3. Bending, Die, Reference Cooler

Das Verbiegen („Bending“) der Multi-Layer-Platine ist auch so so eine Sache für sich, die man nicht lösgelöst von der obigen Problematik betrachten darf! All diese Dinge, wie schlechte oder schwache Lötstellen, werden im Wechselspiel mit der thermisch bedingen, unterschiedlichen physikalischen Ausdehnung, natürlich noch viel bedeutsamer. Doch auch jetzt wird es möglicherweise sogar noch komplexer.

Man muss sich schon die Frage stellen, warum Foxconn bei der Kühlermontage der Founders Edition in den äußeren Befestigungen flexible Federschrauben mit einem fest definierten Drehmoment nutzt, die mögliche Unterschiede in der Auflage der Vapor-Chamber auf dem Die ausgleichen könnten. Das betrifft vor allem Fertigungstoleranzen beim Die und dem Package (Höhe), sowie Unebenheiten im Boden der Vapor-Chamber. Und anderseits brummt man die inneren vier normalen Schauben vom Kühlungs- und Montageframe so fest an, als gäbe es kein Morgen mehr. Finde den Widerspruch!

The bending of the multi-layer board is also such a thing in itself that one must not look at it in isolation from the above problem! All these things, like bad or weak solder joints, become in the interplay with the thermally caused, different physical expansion, of course more important. But even now it may become even more complex.

One has to ask oneself why Foxconn uses flexible spring bolts with a fixed torque in the outer fastenings when mounting the Founders Edition cooler, which could compensate for possible differences in the contact surface of the vapor-chamber on the die. This applies especially to manufacturing tolerances in the die and the package (height), as well as unevenness in the bottom of the vapour chamber. And on the other hand you turn the inner four normal screws for the cooling frame as tightly as if there were no tomorrow left. Find the contradiction!

Die Folgen können durchaus gravierend sein, wenn sich derart fest miteinander verbundene Komponenten unterschiedlich stark ausdehnen oder gar der Druck an den einzelnen Ecken unterschiedlich ausfällt. Auch dann sind nämlich mechanische Fehler und Abrisse von Lötpunkten nahezu vorprogrammiert. Man kann das Spielchen mit den acht Verschraubungen ja gern spielen, aber dann benötigte man schon einen besseren Kühlerboden und weniger Drehmoment beim Verschrauben.

The consequences can be quite serious if such firmly connected components expand to different degrees or even if the pressure at the individual corners is different. Even then, mechanical errors and breaks of solder points are almost pre-programmed. You can play the game with the eight screw connections, but then you needed a better cooler surface and less torque when screwing.

Das mit dem unterschiedlichen Anpressdruck betrifft übrigens auch den Speicher, bei dem die Module (siehe Bild oben) quasi „zwischen die Fronten“ geraten. Wenn der Druck an den Kanten (auch noch begünstigt durch das dicke Pad) unterschiedlich ausfällt, ist dies bei qualitativ minderwertigen Lötstellen brandgefährlich. Die gesamte Kühleraufteilung und Befestigung ist eigentlich problematisch, aber Hauptsache, man verklebt die obere Abdeckung… Soviel Zeit war dann doch vorhanden, um so etwas auszutüfteln.

By the way, the different contact pressure also affects the memory, where the modules (see picture above) get „between the fronts“. If the pressure at the edges (also favoured by the thick pad) is different, it is dangerous if the solder joints are of inferior quality. The entire cooler layout and mounting is problematic, but the main thing was to glue the top cover… So much time was available to come up with something like this.

 

4. RMA-Quoten / RMA Rate

Auch hier ist Vorsicht geboten, denn es ist schwer nachzuvollziehen in welchem Interesse oder Auftrag die eine oder andere Meldung ins Internet entlassen wurde. Fakt ist, dass überwiegend die bei Foxconn produzierte  Founders Edition betroffen ist, so dass man auf die Aussagen von Einzelhändlern, die nur Custom-Modelle verkaufen, eigentlich verzichten kann. Es bestätigt lediglich den Umstand mit der Häufigkeit bei den FE-Karten, mehr aber auch nicht.

Zumal man bei bisher derart wenig verkauften Einheiten eigentlich gar nicht von einer RMA-Quote, sondern fairerweise besser von einem vorläufigen RMA-Trend sprechen sollte. Es wurden bisher einfach zu wenig Karten im Handel umgesetzt, um sich da auch wirklich belastbar aus dem Fenster lehnen zu können.

Caution is also required here, because it is difficult to understand in which interest or order one or the other report was released on the Internet. It is a fact that the Founders Edition produced by Foxconn is predominantly affected, so that one can actually forget the statements of retailers who only sell custom models. It only confirms the fact with the higher rate of FE cards, but nothing more.

This is all the more so since, with units that have been sold so little so far, one should not actually speak of an RMA rate, but rather, fair enough, speak of a provisional RMA trend. So far, too few cards have been sold in the trade to really be able to lean out of the window.

 

Eine kleine Bitte an die Kollegen hätte ich allerdings am Schluss dann aber doch noch. Es ist eigentlich nur fair und kollegial, Informationen und Gedankengänge, Schlussfolgerungen oder Mutmaßungen so zu übernehmen, dass die Quelle auch ersichtlich ist. Das Nachstellen von Tests oder Interpretieren des Gelesenen ist nicht verboten sondern ausdrücklich erwünscht, aber es sollte schon fair zugehen. Und man sollte, wenn man selbst noch Dinge dazuinterpretiert, diesen Unterschied auch kenntlich machen. Danke.

However, I would still have a small request to the colleagues at the end. It is actually only fair and collegial to adopt information and thought processes, conclusions or speculations in such a way that the source is also apparent. The re-enactment of tests or interpretations of what has been read is not forbidden but expressly desired, but it should be fair. And one should, if one still interprets things in addition oneself, also make this difference recognizable. Thank you.

Kommentare (203)

  • Besterino schrieb am
    Glaub der war eher bei NVIDIA-bashers-Club.hatersgonnahate.it.all ... :D
  • Derfnam schrieb am
    90 Beiträge dieser bemerkenswerten Sorte muß man auch erstmal schaffen.
  • grimm schrieb am
    Ich hab aber ein paar Links gefunden. Allerdings sagen die allesamt, dass Nvidia Fehler der RTX "confirmed" oder "admitted". Sind vom 16. November. Mannmann, Lieblingsbesuch, warste bei nvidia-fanboys.com surfen, oder was ;)
  • Lieblingsbesuch schrieb am
    Mist ich finde die Seite nicht mehr, leider hab ich gestern den Link nicht richtig kopiert, Sorry ):
  • DedSec schrieb am
    Lieblingsbesuch hat gesagt
    Link
    Jetzt verlinke die Seite mal ordentlich!

Ebenfalls interessant...