por
pobrecito hablador
el Lunes, 24 Noviembre de 2008, 12:38h
(#1102292)
si queremos precisión doble baja a 80 GFLOPS, que no es una cifra para nada espectacular.
¿Ah no? ¿Qué hay por ahí que alcance los 80GFLOPS? Y aparte de eso, no son 80. 80 son los que proporciona una sola tarjeta (el teórico son 90, en realidad, pero las pruebas se aproximan más a 80). En un cacharro de esos van 4, así que 320GFLOPs en doble precisión y 4TFLOPs (más cerca de unos 3.6TFLOPs en realidad) en precisión simple. Me temo que no hay parangón con ningún otro sistema de un tamaño y/o precio parecido.
102GFLOPS y 64GB de memoria (con un BW de 256 GB/s ) por CPU... Un nodo (de memoria compartida) es 16 veces eso. Soporta hasta 512 nodos.
Mucho más fácil de programar, muchísimo más eficiente en programas altamente vectorizables y un acceso a memoria impresionante.
Me temo que no hay parangón con ningún otro sistema de un tamaño y/o precio parecido.
Copiando y pegando... "maximum expansion stage with 512 nodes, 8,192 CPUs, and 970 TFLOPS peak performance. There is up to 4 TB/s shared memory bandwidth per node and 2 x 128 GB/s node interconnect bandwidth."
Estos sistemas están a otro nivel... y su precio estará a la altura.
Mirando las Nvidia, la C1060 por ejemplo, comparte un bus de 102Gb/s para 240 miniprocesadores (una CPU)... Los 4GB de memoria (por narices) tendrán muy pocos bancos para la cantidad de miniprocesadores que pueden querer acceder a la vez a ella... El cuello de botella con memoria será bestial (tanto por ancho como por acceso al mismo banco), y si no se programa usando las pequeñas caches de cada miniprocesador correctamente, no se le sacará apenas rendimiento... demasiado complejo.
Re:Cuidado con el rendimiento
(Puntos:1, Interesante)¿Ah no? ¿Qué hay por ahí que alcance los 80GFLOPS? Y aparte de eso, no son 80. 80 son los que proporciona una sola tarjeta (el teórico son 90, en realidad, pero las pruebas se aproximan más a 80). En un cacharro de esos van 4, así que 320GFLOPs en doble precisión y 4TFLOPs (más cerca de unos 3.6TFLOPs en realidad) en precisión simple. Me temo que no hay parangón con ningún otro sistema de un tamaño y/o precio parecido.
Re:Cuidado con el rendimiento
(Puntos:3, Informativo)( Última bitácora: Jueves, 31 Mayo de 2007, 20:41h )
Un nodo (de memoria compartida) es 16 veces eso. Soporta hasta 512 nodos.
Mucho más fácil de programar, muchísimo más eficiente en programas altamente vectorizables y un acceso a memoria impresionante.
"maximum expansion stage with 512 nodes, 8,192 CPUs, and 970 TFLOPS peak performance. There is up to 4 TB/s shared memory bandwidth per node and 2 x 128 GB/s node interconnect bandwidth."
Estos sistemas están a otro nivel... y su precio estará a la altura.
Mirando las Nvidia, la C1060 por ejemplo, comparte un bus de 102Gb/s para 240 miniprocesadores (una CPU)... Los 4GB de memoria (por narices) tendrán muy pocos bancos para la cantidad de miniprocesadores que pueden querer acceder a la vez a ella... El cuello de botella con memoria será bestial (tanto por ancho como por acceso al mismo banco), y si no se programa usando las pequeñas caches de cada miniprocesador correctamente, no se le sacará apenas rendimiento... demasiado complejo.