Portrait: Der Cell BE liegt mit 221 mm² Fläche und 235 Millionen Transistoren auf dem Niveau von AMDs und Intels Dual-Core-Prozessoren. (Quelle: IBM)
Mit ihrem Register File kann die SP sechzehn 8-Bit-, acht 16-Bit-, vier 32-Bit-Integer- oder vier Gleitkomma-Zahlen pro Taktzyklus bearbeiten. Bei 3,2 GHz Taktfrequenz liefert eine SPE damit 4 x 3,2 GHz = 12,8 GFLOPS, alle acht insgesamt 8 x 12,8 = 102,4 GFLOPS Rechenleistung.
Nach sechs Taktzyklen (Latenzzeit) ist das Ergebnis bei einfacher Genauigkeit verfügbar. Bei doppelter Genauigkeit (zwei 64-Bit-Gleitkomma-Zahlen) kann alle sieben Taktzyklen mit einer totalen Latenzzeit von dreizehn Taktzyklen eine Operation initiiert werden.
Üblicherweise wird die Angabe der FLOPS-Leistung mit dem Faktor 2 multipliziert, wenn das System Multiplikation und Addition zusammen in einem Zyklus (Multiply-Add-Instruction) durchführen kann. Damit ergibt sich für den Cell BE eine Rechenleistung von 25,6 GFLOPS beziehungsweise 204,8 GFLOPS für alle SPEs.
Dies ist konform zur Angabe seitens IBM, das heißt 2 x 8 x 4 = 64 Gleitkomma-Operationen pro Taktzyklus. Ingesamt leistet der Cell BE Spitzenwerte von über 256 GFLOPS bei einfacher und über 26 GFLOPS bei doppelter Genauigkeit.
Die Leistung eines Mehrprozessorsystems hängt neben der Taktfrequenz von den folgenden Faktoren wesentlich ab:
| Maximale Ausnutzung aller Einheiten (Pipelining, In-Order-Ausführung, gute Sprungvorhersagen) |
| Hohe interne und externe Datenbandbreiten |
| Datenkohärenz und effektiver Mikrocode (SIMD) |
Auch wenn der Power-Kern (PPE) Dual-Threading beherrscht, so sind die beiden Threads nicht unabhängig voneinander, da einige Hardware-Ressourcen des PPE gemeinsam genutzt werden. Zur Programmoptimierung empfiehlt IBM, den PPE nur die nötigste Arbeit durchführen zu lassen und den Großteil an die SPEs zu delegieren.
Nur wenn das Programm für den CELL optimiert ist, kann die CPU seine volle Leistung entfalten. Auch während alle acht SPEs aktiv sind, kann sich der PPE anderen Aufgaben widmen. Die Developer-Resource-Seiten von IBM geben dazu nähere Angaben.
Im Vergleich zu einem aktuellen 3,2-GHz-Prozessor ist der Cell BE beim 4kx4k-Linpack-Benchmark mit einfacher Genauigkeit um den Faktor 6 schneller. Je nach Anwendung und Algorithmus ergibt sich laut IBM eine Performance-Steigerung von 0,9 bis 35 bei Einsatz des Cell BE.
Lesen Sie auf der nächsten Seite:
Lesen Sie in diesem Beitrag