Volta GV100 vs Pascal GP100: что изменилось в топовом ГПУ Nvidia?

0
349

На проходящей в эти дни конференции Hot Chips 2017 Nvidia раскрыла некоторые подробности о ГПУ GV100, которым оснащен новейший и самый производительный графический ускоритель компании, Tesla V100. Кроме того, подробная информация была опубликована в т.н. Белой книге (Whitepaper), официальной документации, посвященной Tesla V100.

Внешне GV100 от своего предшественника GP100 практически не отличается: по углам кристалла расположены четыре блока памяти HBM2 по 4 Гб каждый, а по двум краям самого модуля — 16 индукторов и стабилизаторов напряжения.

А вот внутреннее содержимое двух ГПУ отличается друг от друга весьма значительно. Их характеристики представлены в таблице ниже:

Tesla V100
Tesla P100

Дата анонса
май 2017
апрель 2016

Техпроцесс
TSMC 12нм
TSMC 16нм

Архитектура
Volta
Pascal

ГПУ
GV100
GP100

Площадь ГПУ
815 мм2
610 мм2

Кол-во транзисторов
21 млрд
15.3 млрд

Кол-во ядер INT32
5,120
— 1

Кол-во ядер FP32
5,120
3,584

Кол-во ядер FP64
2,560
1,792

Повышенная (boost) частота ГПУ
1462 МГц
1480 МГц

Производительность (FP32 / FP64)
15 / 7.5 терафлопс
10.6 / 5.3 терафлопс

Кол-во TMU
320
224

Кол-во тензорных ядер
640

Производительность (машинное обучение — тренировка)
120 терафлопс
10 терафлопс

Производительность (машинное обучение — принятие решений)
120 терафлопс
21 терафлопс

Память
16 Гб HBM2 (4096-битная)

Пропускная способность памяти
900 Гб/с
720 Гб/с

Кэш L2
6 Мб
4 Мб

Кэш L1
10 Мб
1.3 Мб

Регистровый файл
20 Мб
14 Мб

Пропускная способность NVLink 2.0
300 Гб/с
160 Гб/с

TDP
300 Вт

1 В ГПУ GP100 ядра FP32 выполняют либо целочисленные 32-разрядные операции (INT32), либо 32-разрядные операции с плавающей точкой (FP32). Тогда как в GV100 имеются ядра отдельно для целочисленных операций и операций с плавающей точкой, поэтому они могут выполнятся одновременно.

Данные в таблице приведены за вычетом блоков SM (4 из 84 у GV100, 4 из 60 у GP100), заблокированных для достижения одинакового количества ядер на случай частичного дефекта у некоторых кристаллов. Производительность указана на повышенной (boost) частоте.

Оценить прогресс в более долгосрочной ретроспективе, с 2013 года (Tesla K40) позволит следующая таблица:

Таким образом, спустя год после анонса Tesla P100 вышел графический ускоритель с 1.5-кратным приростом производительности в операциях с плавающей точкой и 6-12 приростом производительности в операциях глубокого обучения.

Столь внушительному результату GV100 обязано 640 ядрам, специализирующимся на тензорных вычислениях — линейном преобразовании элементов одного линейного пространства в элементы другого (примером которого является перемножение матриц). К слову, свой первый тензорный процессор Google представила еще в 2015 году, а его второе поколение в операциях машинного обучения достигло производительности 180 терафлопс (с точностью FP16).

Nvidia, Tom’s Hardware


Источник

ПОДЕЛИТЬСЯ

НЕТ КОММЕНТАРИЕВ

Комментарии