GTC 2016: Nvidia dio a conocer chip de monstruo Pascal con 16 GB HBM2 y hasta 3840 núcleos

CEO de Nvidia Huang

15 mil millones de transistores 16 de memoria GB HBM2, cerca de 4.000 núcleos shader: Nvidia revela la generación gráfico Pascal. Es adecuado para la aceleración de la realidad virtual, inteligencia artificial, aprendizaje profundo y gráficos en 3D.

Nvidia en la GPU Technology Conference, la nueva arquitectura de gráficos "pascal" presentada. chips de Pascal se ejecutan bajo el nombre "GP100" y son particularmente adecuados para la computación de alto rendimiento y Deep aprendizaje adecuados gracias a su alta potencia de cálculo y eficiencia. CEO de Nvidia Huang presentó el primer acelerador de la informática con el chip GP100 con el Tesla P100. Pascal reemplazará Kepler y Maxwell chips gráficos en el sector profesional en el medio plazo. Los jugadores también se espera que las tarjetas gráficas con GPU Pascal finales de este año; Probablemente vamos dentro de las próximas seis semanas detalles de las tarjetas gráficas GeForce a la luz. De acuerdo con Huang debe haber fluido 2-3 mil millones de dólares en costos de investigación y desarrollo en Pascal.

El programa completo

GPU100 consta de 15 mil millones de transistores y contiene hasta 3840 núcleos de sombreado.

Nvidia fabrica el TSMC GP100-GPU en proceso de FinFET de 16 nm, que asegura en comparación con la anterior tecnología de 28 nm para una mucho mayor eficiencia energética. Cuando la memoria está Nvidia - por lo menos en Tesla P100 - 2 en HBM (memoria de gran ancho de banda 2). En comparación con HBM 1, las únicas tarjetas gráficas de AMD que actualmente se utilizan con Fiji GPU, HBM permite dos velocidades de transferencia más altas y más memoria por GPU.

GP100 se sienta como contraparte Fiji de AMD en una mediadora (o "portador") Y está conectado a través de un total de 4096 líneas de datos con la 16 Gbyte y protegido-ECC memoria HBM-2. Las cuatro pilas de memoria se encuentran muy cerca de la GPU para reducir las vías de señalización y por lo tanto para maximizar la tasa de transferencia. Se encuentra en Tesla P100 a 720 gigabytes por segundo.

Más de 15 mil millones de transistores

Cada multiprocesador Streaming procesa hilos activos hasta el 2048a Cada multiprocesador Streaming procesa hilos activos hasta el 2048a

El GP100 GPU consta de 15,1 mil millones de transistores. Contando los chips de HBM-memoria y otras unidades en la mediadora con, se termina, según el CEO de Nvidia Huang en alrededor de 150 mil millones de transistores. En comparación, el Maxwell GPU GM200 consta de 8 mil millones de transistores, Kepler GK100 de 7,1 mil millones de transistores.

Así Pascal consta de casi el doble de transistores, pero la Nvidia puede acomodar debido a la 16-nm fabricación FinFET en una manera similar gran área de troquel (610 en lugar de 601 mm²). Aunque los aumentos de eficiencia, la línea de fondo Pascal traga pero aún más de Maxwell, es decir, 300 en lugar de 250 vatios.

Shader en masa
Los aceleradores de cálculo Tesla P100 ofrece 16 GB apilan memoria HBM2. Los aceleradores de cálculo Tesla P100 ofrece 16 GB apilan memoria HBM2.

Nvidia paquetes de 3584 núcleos de sombreado 224 y unidades de textura en la GP100-GPU Tesla P100 que se conectan a un valor total de 56 multiprocesadores streaming. Teóricamente, la arquitectura Pascal permite hasta 60 multiprocesadores de streaming por chip, es decir, 3840 núcleos. Es posible que los procesadores Nvidia Pascal en plena configuración utilizadas en futuras cartas de jugadores de Titan y la paga puede ser muy bueno.

Tesla GP100 funciona a 1328 MHz, el modo turbo impulsa el reloj hasta 1.480 MHz y la potencia de procesamiento teórico de 10,6 billones de operaciones por segundo (10,6 teraflops) en precisión simple (single precisión / SP). Para los cálculos de doble precisión (precisión doble / DP, FP64), después de todo, crea Pascal todavía medio (5,3 teraflops), lo que es mucho más poderoso que Maxwell (1 / 32th de la SP-poder). En la llamada "Media de precisión"Cálculos (FP16), que se utilizan por ejemplo en operaciones de textura y también son adecuados para el aprendizaje profundo, Pascal alcanza hasta 21.2 teraflops.

NVLink con 160 GB / s, 8 CUDA en junio

NVLink es más rápido que PCIe y también es adecuado para la conexión de múltiples GPU.NVLink es más rápido que PCIe, y también es adecuado para la conexión de múltiples GPU.

Nvidia también se ha ampliado el tamaño del registro (14 en lugar de 6 Mbytes, 80 TB / s) y la caché L2 (4 en lugar de 3 MByte). 2048 hilos pueden ser activo por multiprocesador streaming, es decir, 64 Deformaciones (Maxwell: 32). las operaciones de memoria atómicas lleva Pascal sobre el FP64-"atomicAdd ()"Funcionar más rápido. NVLink viene como una interconexión a la memoria del sistema o entre varias GPU utilizados, y transfiere datos a velocidades de hasta 80 GB / s en cada dirección (PCIe: 16 GB / s), que se agrega en ambas direcciones 160 GB / s. Incluso cuando la memoria unificada CUDA no GP100 mejoras, que ahora se admite en hardware de 49 bits de direccionamiento y Página fallas. CUDA 8.0 está diseñado para apoyar Pascal y estará disponible a partir de junio. Ahora pertenece al paquete de Nvidia Calcular Works, que a su vez es parte del nuevo SDK de Nvidia. Para esta última también incluye los paquetes, Gameworks VRWorks, Design Works, Drive Obras y jetpack.

Nvidia Profundo-learning superordenador contiene 8 Tesla P100 y cuesta 129.000 dólares. Nvidia Profundo-learning superordenador contiene 8 Tesla P100 y cuesta 129.000 dólares.

De acuerdo con Jen-Hsun Huang es GP100 ya se encuentra en producción en masa. En primer lugar debe Tesla GP100 "pronto" entregar a las entidades de investigación y proveedores de la nube, pero estará disponible para fabricantes de equipos originales hasta el primer trimestre 2017a

Huang también anunció la más potente "puesto de trabajo" DGX-1, que contiene ocho Tesla P100 y está destinado para los cálculos de profundidad-aprendizaje. DGX-1 proporciona 170 TFLOPS en Half-precisión y cuesta 129.000 dólares.

tarjeta de TeslaTesla K40Tesla M40Tesla P100
GPUGK110 (Kepler)GM200 (Maxwell)GP100 (Pascal)
SM152456
TPC152428
núcleos FP32 CUDA / SM19212864
núcleos FP32 CUDA / GPU288030723584
núcleos FP64 CUDA / SM64432
núcleos FP64 CUDA / GPU960961792
Tasa de base745 MHz948 MHz1328 MHz
reloj de turbo810/875 MHz1114 MHz1480 MHz
GFLOPs FP6416802135304
unidades de textura240192224
interfaz de memoriaGDDR5 de 384 bitsGDDR5 de 384 bits4096 bits HBM2
tamaño de la memoriahasta 12 GBhasta 24 GB16 GB
caché L21536 KByte3072 KByte4096K
Register tamaño / SM256 KB256 KB256 KB
Register tamaño / GPU3840 KByte6144 KByte14336 KByte
TDP235 vatios250 vatios300 vatios
transistores7,1 mil millones8 mil millones15,3 mm
El tamaño de la GPU551 mm²601 mm²610 mm²
los procesos de fabricación28 nm28 nm16 nm

(MFI)