Что такое nvidia tesla

История потоковых мультипроцессоров Nvidia

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Последние выходные я потратил на освоение программирования CUDA и SIMT. Это плодотворно проведённое время закончилось почти 700-кратным ускорением моего «рейтрейсера на визитке» [1] — с 101 секунд до 150 мс.

Такой приятный опыт стал хорошим предлогом для дальнейшего изучения темы и эволюции архитектуры Nvidia. Благодаря огромному объёму документации, опубликованному за долгие годы «зелёной» командой, мне удалось вернуться назад во времени и вкратце пройтись по удивительной эволюции её потоковых мультипроцессоров.

В этой статье мы рассмотрим:

Тупик

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Кристалл G71. Обратите внимание на оптимизацию Z-Cull, отбрасывающую фрагмент, не прошедший бы Z-тест.

Эта корреляция заставила проектировщиков угадывать расположение «узких места» конвейера для правильной балансировки каждого из слоёв. С появлением в DirectX 10 ещё одного этапа — геометрического шейдера, инженеры Nvidia столкнулись со сложной задачей балансировки кристалла без знания того, насколько активно будет использоваться этот этап. Настало время для перемен.

Tesla

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Nvidia решила проблему роста сложности при помощи «объединённой» архитектуры Tesla, выпущенной в 2006 году.

В кристалле G80 больше не было различий между слоями. Благодаря возможности выполнения вершинного, фрагментного и геометрического «ядра», потоковый мультипроцессор (Stream Multiprocessor, SM) заменил все существовавшие ранее блоки. Уравновешивание нагрузки выполнялось автоматически, благодаря замене выполняемого каждым SM «ядра» в зависимости от требований конвейера.

«Фактически, мы выбросили всю шейдерную архитектуру NV30/NV40 и с нуля создали новую, с новой общей архитектурой универсальных процессоров (SIMT), в которой также были введены новые методологии проектирования процессоров».

Джона Албен (интервью extremetech.com)

Больше не имеющие возможности выполнять инструкции SIMD «блоки шейдеров» превратились в «ядра», способные выполнять по одной целочисленной инструкции или по одной инструкции с float32 за такт. SM получает потоки в группах по 32 потока, называемых warp. В идеале все потоки одного warp выполняют одновременно одну и ту же инструкцию, только для разных данных (отсюда и название SIMT). Многопотоковый блок инструкций (Multi-threaded Instruction Unit, MT) занимается включением/отключением потоков в warp-е в случае, если их указатель инструкций (Instruction Pointer, IP) сходится/отклоняется.

Два блока SFU помогают выполнять сложные математические вычисления, например, обратный квадратный корень, sin, cos, exp и rcp. Эти блоки также способны выполнять по одной инструкции за такт, но поскольку их только два, скорость выполнения warp-а делится на четыре. Аппаратная поддержка float64 отсутствует, вычисления выполняются программно, что сильно влияет на скорость выполнения.

SM реализует свой максимальный потенциал, когда способен скрывать задержки памяти благодаря постоянному наличию диспетчеризируемых warp-ов, но также когда поток в warp-е не отклоняется (управляющая логика удерживает его на одном пути выполнения инструкций). Состояния потоков хранятся в 4-килобайтных файлах регистров (Register File, RF). Потоки, занимающие слишком большое пространство в стеке, снижают количество возможных потоков, которые могут выполняться одновременно, понижая при этом производительность.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

G80, установленный в 8800 GTX. Render Output Units (ROP) занимаются выполнением сглаживания.

Вместе с Tesla компания Nvidia представила язык программирования C для Compute Unified Device Architecture (CUDA) — надмножество языка C99. Это понравилось энтузиастам GPGPU, приветствовавшим альтернативу обмана GPU при помощи текстур и шейдеров GLSL.

Хотя в этом разделе я в основном рассказываю о SM, это была только одна половина системы. В SM необходимо передавать инструкции и данные, хранящиеся в памяти GPU. Чтобы избежать простоев, GPU не пытаются минимизировать переходы в память при помощи больших кешей и прогнозирования, как это делают CPU. GPU пользуются задержкой, насыщая шину памяти для удовлетворения потребностей ввода-вывода тысяч потоков. Для этого кристалл (например, G80) реализует высокую пропускную способность памяти при помощи шести двусторонних шин памяти DRAM.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

GPU пользуются задержками памяти, в то время как CPU скрывают их при помощи огромного кеша и логике прогнозирования.

Fermi

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Tesla была рискованным ходом, оказавшимся очень успешным. Она была настолько успешной, что стала фундаментом для GPU компании NVidia на следующие два десятка лет.

«Хотя с тех пор мы, конечно же, внесли серьёзные архитектурные изменения (Fermi была серьёзным изменением архитектуры системы, а Maxwell стал ещё одним крупным изменением в проектировании процессоров), фундаментальная архитектура, представленная нами в G80, и сегодня осталась такой же [Pascal]».

Джона Албен (интервью extremetech.com)

Модель выполнения по-прежнему основана на warp-ах из 32 потоков, диспетчеризируемых в SM. NVidia удалось удвоить/учетверить все показатели только благодаря 40-нанометровому техпроцессу. Благодаря двум массивам из 16 ядер CUDA, SM теперь мог одновременно диспетчеризировать два полу-warp-а (по 16 потоков). При том, что каждое ядро выполняло по одной инструкции за такт, SM по сути был способен исключать по одной инструкции warp за такт (в четыре раза больше, чем у SM архитектуры Tesla).

Количество SFU также увеличилось, однако не так сильно — мощность всего лишь удвоилась. Можно прийти к выводу, что инструкции такого типа использовались не очень активно.

Присутствует полуаппаратная поддержка float64, при которой комбинируются операции, выполняемые двумя ядрами CUDA. Благодаря 32-битном АЛУ (в Tesla оно было 24-битным) GF100 может выполнять целочисленное умножение за один такт, а из-за перехода от IEEE 754-1985 к IEEE 754-2008 имеет повышенную точность при работе с конвейером float32 при помощи Fused Multiply-Add (FMA) (более точного, чем используемое в Tesla MAD).

С точки зрения программирования, объединённая система памяти Fermi позволила дополнить CUDA C такими возможностями C++, как объект, виртуальные методы и исключения.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

GF100, установленный в GeForce GTX 480. Обратите внимание на шесть контроллеров памяти, обслуживающих GPC.

Kepler

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

В Kepler компания Nvidia значительно улучшила энергоэффективность кристалла, снизив тактовую частоту и объединив частоту ядер с частотой карты (ранее их частота различалась вдвое).

Такие изменения должны были привести к снижению производительности. Однако благодаря вдвое уменьшившемуся техпроцессу (28 нанометров) и замене аппаратного диспетчера на программный, Nvidia смогла не только разместить на чипе больше SM, но и улучшить их конструкцию.

Next Generation Streaming Multiprocessor (SMX) — это монстр, почти все показатели которого были удвоены или утроены.

Благодаря четырём диспетчерам warp-ов, способным на обработку целого warp-а за один такт (Fermi мог обрабатывать только половину warp-а), SMX теперь содержал 196 ядер. Каждый диспетчер имел двойную диспетчеризацию, позволявшую выполнять вторую инструкцию в warp-е, если она была независима от текущей исполняемой инструкции. Двойная диспетчеризация была не всегда возможна, потому что один столбец из 32 ядер был общим для двух операций диспетчеризации.

Такая схема усложнила логику диспетчеризации (к этому мы ещё вернёмся), но благодаря выполнению до шести инструкций warp-ов за такт SMX обеспечивал удвоенную производительность по сравнению с SM архитектуры Fermi.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

GK104, установленный в GeForce GTX 680.

Обратите внимание на полностью переделанные подсистемы памяти, работающие с захватывающей дух частотой 6 ГГц. Они позволили снизить количество контроллеров памяти с шести до четырёх.

Maxwell

Важнейшим решением стал отказ от структуры Kepler с количеством ядер CUDA в SM, не являющимся степенью двойки: некоторые ядра стали общими и вернулись в работе в режиме половины warp-ов. Впервые за всю историю архитектуры SMM имел меньше ядер, чем его предшественник: «всего» 128 ядер.

Согласование количества ядер и размера warp-ов улучшило сегментацию кристалла, что привело к экономии площади и энергии.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Один SMM 2014 года имел столько же ядер (128), сколько вся карта GTX 8800 в 2006 году.

Второе поколение Maxwell (описанное в технической документации GM200 [9] ) значительно повысило производительность, сохранив при этом энергоэффективность первого поколения.

Техпроцесс оставался на уровне 28 нанометров, поэтому инженеры Nvidia не могли для повышения производительности прибегнуть к простой миниатюризации. Однако уменьшение количества ядер SMM снизило их размер, благодаря чему на кристалле удалось разместить больше SMM. По сравнению с Kepler, второе поколение Maxwell удвоило количество SMM, при этом всего на 25% увеличив площадь кристалла.

В списке усовершенствований также можно найти упрощённую логику диспетчеризации, позволившую снизить количество избыточных повторных вычислений диспетчеризации и задержку вычислений, что обеспечило повышение оптимальности использования warp-ов. Также на 15% была увеличена частота памяти.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

GM200, установленный в GeForce GTX 980 Ti.

Pascal

В 2016 году Nvidia представила Pascal. Техническая документация GP104 [11] оставляет ощущение дежавю, потому что Pascal SM выглядит точно так же, как Maxwell SMM. Отсутствие изменений SM не привело к стагнации производительности, потому что 16-нанометровый техпроцесс позволил разместить больше SM и снова удвоить количество гигафлопс.

Среди других серьёзных улучшений была система памяти, основанная на совершенно новой GDDR5X. 256-битный интерфейс памяти благодаря восьми контроллерам памяти обеспечивал скорости передачи в 10 гигафлопс, увеличив на 43% пропускную способность памяти и снизив время простоя warp-ов.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

GP104, установленный в GeForce GTX 1080.

Turing

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Кроме новых ядер, в Turing появилось три важные особенности. Во-первых, ядро CUDA теперь стало суперскалярным, что позволяет параллельно выполнять инструкции с целыми числами и с числами с плавающей запятой. Если вы застали 1996 год, то это может напомнить вам об «инновационной» архитектуре Pentium компании Intel.

Во-вторых, новая подсистема памяти на GDDR6X, поддерживаемая 16 контроллерами, способна теперь обеспечивать 14 гигафлопс.

В-третьих, потоки теперь не имеют общих указателей инструкций (IP) в warp-е. Благодаря появившейся в Volta диспетчеризации Independent Thread Scheduling, каждый поток имеет собственный IP. В результате этого SM способны гибче настраивать диспетчеризацию потоков в warp-е без необходимости как можно более быстрого их схождения.

Что ждёт нас дальше

По слухам, следующая архитектура под кодовым названием Ampere будет объявлена в 2020 году. Так как Intel доказала на примере Ice Lake, что по-прежнему существует потенциал миниатюризации при помощи 7-нанометрового техпроцесса, почти нет сомнения в том, что Nvidia использует его для дальнейшего уменьшения SM и удвоения производительности.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Терафлопс/с для каждого кристалла/карты Nvidia (источник данных: techpowerup.com).

Интересно будет посмотреть, как Nvidia продолжит эволюцию идеи кристаллов, имеющих три типа ядер, выполняющих разные задачи. Увидим ли мы кристаллы, целиком состояние из Tensor-ядер или RT-ядер? Любопытно.

Источник

NVIDIA Tesla K80 — подробности о самом мощном ускорителе

Вычислительные ускорители NVIDIA Tesla прочно заняли своё место везде, где требуется высокая вычислительная производительность: от биржевого анализа до научных расчётов. Ими комплектуются специальные серверы, на их базе строятся вычислительные суперкластеры. Секрет успеха NVIDIA в этой области — поддержка всех современных как закрытых (CUDA), так и открытых технологий (OpenCL, DirectCompute). И в одной из предыдущих новостей мы уже сообщали, что компания готовит к запуску новые модели ускорителей Tesla, как на базе новой архитектуры Maxwell, так и на основе проверенной временем архитектуры Kepler. Особняком в этом списке стояла модель Tesla K80, которая должна была стать вторым двухпроцессорным вычислительным ускорителем NVIDIA после устаревшего D870.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

NVIDIA Tesla K80 не имеет вентилятора

Так и случилось. Компания опубликовала официальный анонс Tesla K80, наиболее мощного ускорителя в серии на сегодняшний день. Как и ожидалось, он получил два процессора, но не GK110, как можно было предположить, а совершенно новые GK210, которые, впрочем, производятся с использованием того же 28-нанометрового техпроцесса TSMC. Двухпроцессорные графические карты — это всегда компромисс, и то же в полной мере относится и к вычислительным ускорителям. Если один процессор GK110 на борту Tesla K40 имеет 2880 активных поточных процессоров, то GK210 в конструкции Tesla K80 были несколько усечены в конфигурации и получили по 2496 процессоров на чип. Это позволило уложиться в 300-ваттный теплопакет и сделать систему охлаждения полностью пассивной, рассчитанной на продув силами вентиляторов, установленных в корпусе сервера. Их там, как правило, немало и они обеспечивают мощный воздушный поток, поскольку о тишине особенно заботиться не надо.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Самый быстрый ускоритель научных расчётов

Не обошлось и без снижения тактовых частот: ядра Tesla K80 работают на частоте всего 562 МГц в базовом режиме и 875 МГц — в турборежиме. Но в данном случае количество бьёт качество: почти 5 тысяч поточных процессоров, а точнее, 4992, работая в турборежиме, легко выдают 2,91 терафлопса вычислительной мощности в режиме двойной точности. В обычном режиме этот показатель снижается до 1,87 терафлопс, что всё равно больше, чем может дать Tesla K40 в турборежиме (1,66 терафлопс). При этом карта имеет стандартную компоновку: один слот PCIe x16 и двойная высота, что незаменимо для компактных систем, от которых, тем не менее, требуется высокая вычислительная мощность. А в режиме одинарной точности вычислений показатели новичка выглядят ещё внушительнее: 8,74 и 5,6 терафлопс соответственно. Быстрая межпроцессорная шина NVLink позволяет избежать традиционных для NUMA-систем «бутылочных горлышек».

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Быстрая межпроцессорная шина гарантирует отсутствие узких мест

Не подкачала и подсистема памяти: на борту NVIDIA Tesla K80 установлено сразу 24 гигабайта быстрой памяти GDDR5, что является своеобразным рекордом: даже AMD FirePro W9100 располагает всего 16 гигабайтами. И это честные 24 гигабайта, ведь, в отличие от игровой технологии SLI, данные в памяти первого GPU не должны дублироваться в блоке памяти второго GPU. Надо ли объяснять, что объём памяти в массивных вычислениях играет далеко не последнюю роль? Не забыта и пропускная способность: совокупная производительность подсистемы памяти Tesla K80 достигает 480 Гбайт/с, по 240 Гбайт/с на каждый процессор. Это делает новинку идеальным решением практически для любой сферы, где необходимы массивные вычисления — от астрофизики, генетики и квантовой химии, до анализа больших массивов данных и систем «глубокого машинного обучения». Всего ускорители Tesla могут работать более чем с 280 приложениями и программными пакетами.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Преимущества GPGPU очевидны

По утверждению NVIDIA, ускоритель Tesla K80 на порядок (в 10 раз) опережает самые лучшие традиционные процессоры в наиболее распространённых научных и инженерных программных пакетах, таких как GROMACS, AMBER, LSMS или Quantum Espresso. Если вспомнить о тепловых и электрических характеристиках, то оказывается, что K80 очень сильно превосходит обычные ЦП и в плане энергоэффективности: 18-ядерный Intel Xeon E5-2699v3 имеет теплопакет в районе 145 ватт, а NVIDIA Tesla K80, как уже упоминалось выше, — всего около 300 ватт, то есть как пара таких Xeon. При этом последний несравнимо быстрее. Итак, следует заключить, что идея GPGPU, то есть «вычислений на базе графических процессоров», отлично прижилась в современной науке, инженерии и экономике. Так считают и лучшие умы планеты.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Широкий спектр задач и высокая производительность. У традиционных ЦП нет шансов

В частности, Вольфганг Нейджел (Wolfgang Nagel), директор центра информационных услуг в Дрезденском Техническом Университете, говорит, что учёные используют ресурсы суперкомпьютера Taurus, построенного на базе GPU NVIDIA, для таких задач, как поиск и разработка методов лечения рака, изучения клеток в реальном времени и даже исследования астероидов в рамках прогремевшего недавно на весь мир проекта ESA «Rosetta». А появление новой мощной, но при этом компактной и экономичной модели ускорителя NVIDIA Tesla непременно приведёт к созданию ещё более мощных и эффективных суперкомпьютеров, от чего выиграет и наука, и человечество в целом. Поставки ускорителя NVIDIA Tesla K80 уже начались, подробнее с ним можно ознакомиться в соответствующем разделе веб-сайта NVIDIA, а для скептиков существует даже бесплатная возможность опробовать GPGPU в деле.

А между тем, технологии не стоят на месте, и очень интересно будет взглянуть на будущих монстров Tesla на базе GM200.

Источник

Разбираем редкого зверя от Nvidia — DGX A100

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Крупные IT-компании располагают дорогими «игрушками», которые скрыты от взоров большинства пользователей. Сегодня мы приоткроем завесу тайны и расскажем про систему, которая оптимизирована для работы с искусственным интеллектом.

Задачи ИИ предъявляют высокие требования к вычислительным и сетевым ресурсам, поэтому наш сегодняшний «гость» приятно порадует своей конфигурацией. Встречайте: NVIDIA DGX A100.

Встречают по одежке

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Техника безопасности предписывает использовать механический лифт для работы с сервером
NVIDIA DGX A100 — это стоечный сервер, высотой в 6U и массой более 130 килограмм. Сервер даже в коробке способен повергнуть в легкий трепет. Большой корпус и красивый золотистый цвет притягивают взгляды проходящих мимо коллег.

Сервер прибыл в сопровождении инженера, который оказывал нам как физическую, так и моральную поддержку. Пока наши сотрудники снимали упаковку и готовили инструменты для транспортировки сервера к месту установки, инженер рассказывал интересные факты об этом сервере. Так, техника безопасности предписывает использовать лифт для монтажа в стойку, а для разборки сервера нужно минимум два человека.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Количество портов ввода-вывода на этом сервере зашкаливает
Корпус сервера не открывается сверху. Вместо этого в задней части сервера есть два трея — это составные части сервера, которые содержат «начинку» сервера. Обратите внимание, что винты-фиксаторы треев в шасси окрашены в зеленый цвет, а фиксаторы крышки трея — в черный.

В глаза бросается шесть блоков питания по 3 КВт каждый с возможностью горячей замены. Интересно, что максимальное заявленное энергопотребление — 6.5 КВт. Разгадка проста: блоки питания работают по схеме 3+3, то есть резервирование 2N. Большинство обычных корпусов для GPU предоставляют 4 блока питания и схему 3+1.

На нижнем трее видно десять портов сетевых карт с пропускной способностью до 200 Гбит/с. По умолчанию двухпортовая карта сконфигурирована в режиме Ethernet, а остальные — в режиме Infiniband. Эти сетевые карты используются для объединения нескольких DGX в вычислительный кластер. У нас всего один DGX, поэтому порты не используются.

Один из суперкомпьютеров России, Кристофари, собран из 75 серверов DGX-2, в основе которого лежат графические ускорители предыдущего поколения.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Сперва мы хотели попытаться запустить DGX самостоятельно, но, к сожалению, столкнулись с неожиданной проблемой. Во время пуско-наладочных работ сервер вывел ошибку связи с BMC и раскрутил все вентиляторы до 18 000 оборотов в минуту. При помощи сопровождающего инженера ошибка была устранена, и сервер стал работать в штатном режиме. Даже в процессе стресс-тестирования на такие обороты он больше не выходил.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

В ходе тестов было выявлено, что данная крышка не имеет значительного влияния на теплоотвод, вентиляторы сервера отлично справляются со своей работой.

После внешнего осмотра сервер был перенесен на прочный стол и разобран.

Филигранная техника

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Специфические коннекторы GPU-трея
Как уже говорилось ранее, сервер состоит из двух треев: CPU и GPU. Каждый трей — это часть сервера, заключенная в свою железную коробку, которая установлена в шасси. Связь между треями, вентиляторами и корзинами на передней панели обеспечивает объединительная плата, установленная в корпусе. В некотором смысле DGX — это классическое blade-шасси, только вместо отдельных серверов (лезвий) устанавливаются части одного сервера.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

GPU-трей. Много радиаторов
Вверху находится GPU-трей, занимающий 3U. Он тяжеловат даже для двух человек. На верхней крышке трея также есть предупреждающий знак о тяжести объекта и необходимости работать с ним вдвоем.

В этом трее установлены восемь видеокарт NVIDIA Tesla A100 в модификации 40 GB. Их особенностью является форм-фактор SXM4. Данная версия видеокарты отличается мезонинным исполнением и повышенным тепловыделением: 400 Вт против 300 у PCIe-версии.

Помимо восьми больших радиаторов видеокарт, на трее расположены шесть радиаторов поменьше. Эти радиаторы охлаждают микросхемы, которые реализуют интерконнект видеокарт. Технологии NVLINK и NVSWITCH соединяют восемь видеокарт многосвязной топологией (каждая видеокарта соединена с каждой) с пропускной способностью 600 Гбит/с.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

CPU-трей. Здесь тоже много радиаторов
CPU-трей имеет два способа извлечения: полное и частичное.

Во втором случае трей выезжает из шасси чуть больше чем на длину части с PCIe-слотами и фиксируется, а крышка трея открывается вверх. Это позволяет провести работы с сетевыми картами или накопителем для ОС, не извлекая трей целиком.

Со стороны CPU-трей выглядит как обычный 2U сервер без блоков питания. Под большими радиаторами прячется пара процессоров AMD EPYC 7742, суммарно 128 физических ядер или 256 логических. Рядом стоят шестнадцать планок DDR4 с частотой 3200 МГц и объемом 64 ГБ каждая. Суммарный объем оперативной памяти 1 ТБ.

Интересно, что радиаторы процессоров расположены друг за другом, то есть второй процессор охлаждается теплом первого. Тем не менее, с системой охлаждения DGX это выглядит незначительно. Непривычно большие радиаторы заметны и на этом трее. Взаимодействие с GPU-треем создает большую нагрузку на PCIe-мосты, которые тоже требуют охлаждения.

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Электронный город
Между слотами находится небольшая плата с максимальной плотностью электронных компонентов. Это выглядит как маленький электронный город. Здесь узнается чип ASPEED, который является «сердцем» BMC-модуля. Помимо этого, здесь есть модули доверенной загрузки, которые обеспечивают безопасность платформы.

Существует «старшая» модификация DGX A100 на 640 ГБ видеопамяти. В ней объем оперативной памяти расширен до 2 ТБ, а также увеличен объем постоянного хранилища.

На этом знакомство с внутренним миром DGX закончено. Давайте посмотрим на него в работе.

Душа титана

Что такое nvidia tesla. Смотреть фото Что такое nvidia tesla. Смотреть картинку Что такое nvidia tesla. Картинка про Что такое nvidia tesla. Фото Что такое nvidia tesla

Для отображения всех ядер в htop разрешения 203×53 мало
В коробке с DGX лежит флешка, а на флешке — подготовленный образ операционной системы для начала работы. Основой образа является операционная система Ubuntu 20.04.3 LTS с предустановленными драйверами и специальными утилитами.

Сервер, который мы запускаем, прошел длинный путь, в ходе которого был разобран и собран. После транспортировки и манипуляций стоит проверить целостность систем сервера. По регламенту установки операции, сопряженные с первым запуском DGX, должен проводить сопровождающий инженер, но нам было очень любопытно, поэтому все операции проводились совместно.

Часть операций производится через утилиту nvsm, консольный интерфейс для nvidia system management. Всего одна команда проверит «теоретическое» состояние сервера:

Команда проверяет все, до чего может «дотянуться», а именно:

Следующий этап регламента — запуск стресс-теста. Это не только проверит систему в работе, но заодно предоставит нам информацию о максимальном практическом энергопотреблении и температуре на различных компонентах сервера. В этой задаче также помогает утилита nvsm.

Стресс-тест сделан достаточно удобно. Утилита нагружает процессор, видеокарты, оперативную память и постоянное хранилище и начинает отслеживать системные события, температуры, обороты вентиляторов и энергопотребление. Через 20 минут, в конце теста, выводится табличка статистики.

Здесь видно, что температура процессоров и видеокарт не превышала 69 градусов, при этом вентиляторы работали чуть меньше, чем в полсилы. Энергопотребление составило 4.7 КВт, что почти на два киловатта меньше заявленного в спецификации. Впрочем, данный стресс-тест не учитывает десяти внешних сетевых карт, да и наша версия DGX не старшая.

Теперь, когда сервер проверен и готов к работе, хочется провести тесты, чтобы узнать, на что способна эта машина для вычислений. Хотя данный сервер больше предназначен для задач ИИ, желания провести обычные тесты никто не отменял.

Мы начали с GeekBench 5 Compute. К сожалению, данный бенчмарк не задействует интерконнект между видеокартами и тестирует исключительно одно устройство за раз. Тем не менее, с его помощью можно сравнить, насколько SXM4-версия Tesla A100 лучше, чем PCIe-версия.

КатегорияPCIe Tesla A100 40GSXM4 Tesla A100 40G
OpenCL170137188380 (+11%)
CUDA213899234890 (+10%)
КатегорияPCIe Tesla A100 40GSXM4 Tesla A100 40G
Inference Score2517730158 (+20%)
Training Score2377527837 (+17%)
AI Score4895257995 (+19%)

В качестве тестирования задач ИИ был выбран MLPerf от MLCommons. На сайте NVIDIA упоминается этот тест, а в турнирных таблицах MLPerf встречаются результаты старшей версии DGX A100 за авторством производителя.

Несмотря на наличие инструкции и четкий регламент, большинство тестов не запускалось из-за ошибок в зависимостях Docker-контейнеров. Однако вместе с DGX A100 поставляется контракт на техническую поддержку, который включает в себя в том числе возможность пообщаться с экспертами в области ИИ, а также удаленную помощь с настройкой ПО.

На данный момент у нас нет возможности сравнить DGX A100 с сервером с восемью Tesla A100 без интерконнекта, поэтому тестирование MLPerf пока отложено до момента появления тестового стенда с необходимой конфигурацией.

Заключение

NVIDIA DGX A100 — мощный сервер, призванный ускорить решение задач, связанных с искусственным интеллектом. DGX имеет множество сложных технических нюансов и особенностей, но их нельзя прочувствовать на паре общих тестов производительности. Чтобы узреть настоящую мощь этого сервера, нужно «потрогать» его самостоятельно.

Сервер предоставлен компанией Forsite. Forsite — российский производитель суперкомпьютеров и провайдер решений NVIDIA уровня Elite.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *