Ich frage mich, ob ich mich hinsichtlich Blender Classroom in den Versionen Metal vs. CUDA vs. Optix irre. Ich dachte, es seien unvergleichbare Benchmarks. Aber vielleicht wird ja das gleiche gemessen und gerendert mit jeweils nur anderem Bibliotheken-/Hardwarekernemodul? Also Metal auf Apple-M4-Max-GPU-Kernen vs. CUDA auf Nvidia-CUDA-Kernen vs. Optix auf Nvidia-RT-Kernen (oder sind es CUDA- und RT-Kerne?!). Soweit ich bisher gelesen habe, verwendet Optix anders als die Nvidia-TensorRT-Bibliothek nicht auch noch die Nvidia-Tensor-Kerne, nutzt also die volle Geschwindigkeit der Nvidia-GPUs nicht aus (Nvidia schreibt bei Optix auf einer Übersichtsseite jedenfalls nur etwas von RT-Kernen).
Ich habe nun erst einmal Blender Classroom Optix mit CUDA verglichen für jedes im Vergleich gelistete Notebook: Optix ist 1,33 ~ 1,75-mal schneller als CUDA. Dass es dabei eine Bandbreite der Werte gibt ohne offensichtliche Abhängigkeit (auch jeweils innerhalb entweder RTX 4080 oder 4070), welche RTX-4000-Laptop-GPU eingebaut ist, ist durchaus überraschend, denn die RT-Kerne sollten bei RTX 4000 Laptop allesamt gleichschnell sein (ebenso stattdessen die CUDA-Kerne).
Sollte nun Blender Classroom nun das Gleiche messen und rendern mit jeweils nur anderem Bibliotheken-/Hardwarekernemodul, müsste es bei Optix vs. CUDA eine fast konstante Geschwindigkeitsverbesserung geben. Dass es aber schon da die Bandbreite 1,33 ~ 1,75-mal gibt, bedeutet doch wohl eher, dass man je zwei verschiedene Blender-Classroom-Benchmarks der Arten Metal, Optix und CUDA doch nicht miteinander vergleichen kann.
Optix liefert bestenfalls 15s auf RTX 4080 Laptop, während Metal 17,8s liefert auf Apple M4 Max 40-Kern-GPU 16-Kern-CPU. Die ähnlichen Zeiten verleiten zu Andreas Vermutung, die beiden Werte der verschiedenen Benchmark-Arten seien vergleichbar. Das aber muss bezeifelt werden, da schon die beiden Nvidia-Benchmark-Arten Optix und CUDA von Blender-Classroom nicht hinreichend aussagekräftig miteinander vergleichbar sind, jedenfalls solange die ziemlich deutliche Bandbreite der Werte zwischen verschiedenen Notebooks trotz jeweils derselben Nvidia-GPU nicht erklärt wird womöglich mit unzureichender Kühlung und Throttling. Dann müsste man alles ohne Throttling bei stabiler Kühlung in Dauer-Benchmarks testen, ob die Bandbreite der Werte minimiert werden kann. Ebenso bei Apple M4 Max 40-Kern-GPU 16-Kern-CPU.
Und grundsätzlicher bleibt eben noch zu klären, ob die drei Blender-Classroom-Arten überhaupt auf Anwendungsebene das Gleiche messen: das gleiche Anwendungsobjekt mit den gleichen Berechnungsteilobjekten in den Softwaredatenstrukturen mit demselben Algorithmus.
Bei der Go-Spiel-Deep-Learning-Engine KataGo unter Verwendung eines bestimmen Netzes ist dies der Fall, auch wenn man KataGo in den Arten entweder OpenCL oder CUDA oder TensorRT testet, so wie ich das für RTX 4070 Desktop getan habe. Tests Anderer auf Apple-Computern verwendeten auch ältere Netze, sodass sowohl die unterschiedlichen Hardwares als auch die älteren Netze zusammen (sogar extrem viel) langsamer waren.
Klar sollte sein, dass Benchmarks verschiedener Blenderversionen nicht miteinander vergleichbar sind. Hier aber wurde immer Version 3.3 verwendet, sodass zumindest die Möglichkeit besteht, dass eine Klärung prinzipielle Vergleichbarkeit auf Anwendungsebene feststellen könnte. So eine Feststellung oder deren Widerruf ist also noch nötig. Dann verbleibt aber noch die Kühlungs- und Throttling-Problematik, welche man zwecks Vergleichbarkeit in den Griff bekommen muss.
17,8s statt 15s sieht gut aus, aber es bleibt noch unklar, ob wir überhaupt beide Werte miteinander vergleichen dürfen.