Historias
Slashboxes
Comentarios
 
Este hilo ha sido archivado. No pueden publicarse nuevos comentarios.
Mostrar opciones Umbral:
Y recuerda: Los comentarios que siguen pertenecen a las personas que los han enviado. No somos responsables de los mismos.
  • Re:Cuidado con el rendimiento

    (Puntos:1, Interesante)
    por pobrecito hablador el Lunes, 24 Noviembre de 2008, 12:38h (#1102292)
    si queremos precisión doble baja a 80 GFLOPS, que no es una cifra para nada espectacular.

    ¿Ah no? ¿Qué hay por ahí que alcance los 80GFLOPS? Y aparte de eso, no son 80. 80 son los que proporciona una sola tarjeta (el teórico son 90, en realidad, pero las pruebas se aproximan más a 80). En un cacharro de esos van 4, así que 320GFLOPs en doble precisión y 4TFLOPs (más cerca de unos 3.6TFLOPs en realidad) en precisión simple. Me temo que no hay parangón con ningún otro sistema de un tamaño y/o precio parecido.

    [ Padre ]
    Puntos de inicio:    0  puntos
    Moderación   +1  
    Modificador extra 'Interesante'   0  

    Total marcador:   1  
  • Re:Cuidado con el rendimiento

    (Puntos:3, Informativo)
    por Vacatalada (31662) el Lunes, 24 Noviembre de 2008, 16:49h (#1102360)
    ( Última bitácora: Jueves, 31 Mayo de 2007, 20:41h )
    http://en.wikipedia.org/wiki/NEC_SX-9 [wikipedia.org]

    ¿Qué hay por ahí que alcance los 80GFLOPS?
    102GFLOPS y 64GB de memoria (con un BW de 256 GB/s ) por CPU...
    Un nodo (de memoria compartida) es 16 veces eso. Soporta hasta 512 nodos.

    Mucho más fácil de programar, muchísimo más eficiente en programas altamente vectorizables y un acceso a memoria impresionante.

    Me temo que no hay parangón con ningún otro sistema de un tamaño y/o precio parecido.
    Copiando y pegando...
    "maximum expansion stage with 512 nodes, 8,192 CPUs, and 970 TFLOPS peak performance. There is up to 4 TB/s shared memory bandwidth per node and 2 x 128 GB/s node interconnect bandwidth."

    Estos sistemas están a otro nivel... y su precio estará a la altura.

    Mirando las Nvidia, la C1060 por ejemplo, comparte un bus de 102Gb/s para 240 miniprocesadores (una CPU)... Los 4GB de memoria (por narices) tendrán muy pocos bancos para la cantidad de miniprocesadores que pueden querer acceder a la vez a ella... El cuello de botella con memoria será bestial (tanto por ancho como por acceso al mismo banco), y si no se programa usando las pequeñas caches de cada miniprocesador correctamente, no se le sacará apenas rendimiento... demasiado complejo.
    [ Padre ]