Quote from: JKM on January 27, 2020, 14:13:11
Benchmarks müssen Repräsentativ sein, aller Anwendungen gewichtet nach der Nutzungs-Häufigkeit/Bedeutung, und nicht, wer was mag, nur weil es dort besser funktionert.
Ja, leider gibt es keinen echten Standard für Benchmarks. Einen Vorteil, den echte Anwendungsbenchmark-Suites jedoch gegenüber synthetischen Suites haben, ist der, dass Entwickler von Anwendungen regelmäßig neue Technologien und Optimierungen implementieren, die direkt auf das Verhalten ihrer Anwendung abzielen. Währenddessen die synthetischen Varianten lediglich segmentieren, und auf bestimmte Hardware-Bereiche abzielen und bei denen das Verhalten statisch bleibt. D.h. ein ineffizienter Algorithmus wird für den Lebenszyklus des Benchmarks auch weiterhin ineffizient bleiben, damit keine Scores ungültig werden.
QuoteAls Tester müsste man überprüfen, welcher Benchmark am repräsenativesten ist, um statt viele Test-Paramter aller Tests eben nur einen repräsentativen Test-Parameter eines Tests zu zeigen, was eben viel übersichtlicher ist.
Wenn Intel CPUs plötzlich aus dem Nichts mit einer neuen Bench-Version besser wird, dann muss dies überprüft werden, was eben repräsentativer ist.
Genau. Geekbench simuliert Szenarien, ohne dass der Benutzer mehr als einen Fortschrittsbalken sieht. Das ist relativ intransparent, z.B. würde mein Ryzen 3950X 1316 Punkte im Einzelkern haben, aber dafür 14424 im Mehrkern, die Frage ist: Was sagen mir diese Zahlen konkret aus? Normalerweise wird bei GB auch in die getesteten Bereiche aufgeschlüsselt. Solange ich hier bei dem veröffentlichten Score vom Tiger Lake U nichts ähnliches sehe, kann ich keinen Vergleich ziehen. Es sagt auch nicht aus, weshalb er in einigen Bereichen besser ist, das kann neben weiteren architektonischen Verbesserungen durchaus zusätzlich am dickeren L1-Cache liegen oder an einer anderen Besonderheit, die in einem Untertest, der diese Bereiche und Funktionen der CPU besser nutzt, zu besseren Ergebnissen führen. Die Frage ist: Wie relevant sind diese Funktionen für den Alltag bzw. meine Anwendungsfälle?
Nebenbei: Wie kann es sein, dass manche Ryzen 3900X-Scores teilweise mehr als 3100 Punkte aufzeigen? Das ist unreal und unterminiert die Glaubwürdigkeit von GB für mich.
Deshalb gilt für mich nur das was ich als Anwendungsfall habe, und man kann eine Workstation CPU schlecht 1:1 mit einer Laptop CPU vergleichen. Ich kann meinen Rechner bei 16 Kern Volllast bei 75°C halten ohne Throttling, das schafft auch eine moderne Laptop-CPU nicht mal bei vier Kernen. Damit werden die Ergebnisse auch verzerrt, wenn ich beide gegeneinander antreten lassen würde.
Quote
In der Realität sind diese oft wenig spürbar.
Nichts ungewöhnliches.
In der Realität empfindet der Mensch in der Regel logarithmisch a la dB(A). Den Lautstärken-Unterschied hört der Mensch erst ab 3dB, was schon der doppelte Schalldruck entspricht. +10dB hat schon den 10-fach höheren Schalldruck. Zum Empfinden wird die A-Linie bevorzugt bzw. am repräsentativesten für das Menschliche Hör-Empfinden genommen.
Es sei denn, wie in meinem Fall, in dem ich selbst in Video-Render-Szenarien tatsächlich weniger 1% Abweichung messe, wenn ich das Leistungsprofil wechsle. D.h. ich kann es auch nachmessen und das lässt mich objektiv zum Schluss kommen, dass synthetische Benchmarks oft nur die halbe Story sind. Ohne zeitliche Bezüge auf SOLL/IST bzw. Vorher/Nachher, d.h. aktives Profiling, würde man tatsächlich auf subjektive Einschätzungen beschränken müssen. Dann träfe auch der Lautstärken-Vergleich zu.