Что такое rtx 3080

20.04.202226.04.2022 admin 0 Comments

Изучаем референсные NVIDIA GeForce RTX 3080 и GeForce RTX 3090: разгон и тестирование в 8K

Вступление

Про видеокарты NVIDIA GeForce RTX 3080 и 3090 уже все известно. Только на нашем сайте вышло уже несколько обзоров различных вариантов ускорителей поколения Ampere. Но все – от партнеров компании под другими торговыми марками. Однако, как было и в предыдущих поколениях, 3000-е карты будут доступны и в референсном варианте под маркой самой NVIDIA. Из-за объективных сложностей с логистикой, вызванных известными мировыми событиями, образцы не смогли вовремя добраться до российских обозревателей.

Но сейчас, наконец, мы можем познакомиться с GeForce RTX 3080 и GeForce RTX 3090 в референсном варианте. Именно эти видеокарты на этапе подготовки к анонсу вызывали огромный интерес своим необычным дизайном. Ранее они именовались Founders’ Edition, но сейчас от такого именования отказались. Перед нами просто NVIDIA GeForce RTX 3080 и 3090/

При этом в протестированных нами GeForce RTX 3080 и 3090 и так наблюдались явные сложности с каким-либо заметным разгоном. Здесь же, забегая вперед, скажу, что у «референсов» никаких проблем с вылетами во время тестирования не наблюдалось, а оверклокерский потенциал, по крайней мере, на фоне пессимистичных предварительных ожиданий, меня приятно удивил. Так что не исключено, что из первой волны моделей перед нами потенциально одни из самых быстрых вариантов видеокарт. И в этом поколении именно референсные GeForce RTX 3080 и 3090 вполне способны снискать реальную популярность у покупателей. Тем более, что цены явно еще не скоро придут в соответствие с заявленными – действительно очень привлекательными.

Что касается нынешних обладателей видеокарт GeForce RTX предыдущего поколения, то у них нет причин для паники. Их 2000-е не превратились в один миг в тыкву. И игры на них не перестали запускаться или работать хуже. Да даже из продажи данные карты, скорее всего, еще долго не исчезнут. Просто, как это и должно быть в конкурентном сегменте рынка, соотношение цены и производительности всех видеоускорителей придет к очередной равновесной точке. Я не согласен с распространенным мнением, что первое поколение GeForce RTX вышло неоднозначным, промежуточным и т.п. Это быстрые видеокарты, которые демонстрируют достойное соотношение производительности и энергопотребления. И, что ни говори, добавили доселе невиданный графический функционал в виде трассировки лучей. А то, что новое поколение получило такую заметную прибавку производительности – это его плюс, а не минус для предыдущего.

Источник

RTX 3080 для ноутбуков — насколько это реально RTX 3080?

Это NVIDIA GeForce RTX 3080 — видеокарта настолько редкая, что если вы ее сейчас и найдете, то за цену, за которую едва ли решите покупать.

А это игровой ноутбук XMG NEO 17, в состав которого входят: видеокарта RTX 3080, восьмиядерный процессор AMD Ryzen 5000, память NVMe и дисплей с разрешением 1440p и высокой частотой обновления.

У ноутбуков, как и у настольных ПК, есть свои плюсы и минусы, но важно отметить, что RTX 3080 в том и другом случае — совсем не то же самое.

Продолжим рассматривать XMG NEO 17. Надо сказать, что это, конечно, просто зверь среди ноутбуков. Но основное внимание мы уделим его видеокарте.

Прежде всего стоит упомянуть, что:

Любопытно, что ноутбучная RTX 3080 в одном аспекте оказывается все-таки более эффективной, чем классическая RTX 3070. У нее больше ядер CUDA: 6144 по сравнению с 5888, — так что на самом деле GA104 в ней задействован полностью — в отличие, опять-таки, от десктопной версии. Однако можно также заметить, что мощности настольная карта потребляет больше, чем мобильная: 220 Вт против максимальных 150 Вт у мобильной RTX 3080.

Так может ли RTX 3080 для ноутбуков действительно называться GeForce RTX 3080?

Тут все сложно. Сама по себе RTX 3080 является синонимом лучшей в своем классе производительности для настольных ПК, а RTX 3080 для ноутбуков — лучшая в своей области. Так что, возможно, имело бы смысл обозначить ее как RTX 3080m. Возможно.

На самом деле, все еще сложнее.

У XMG NEO 17 есть функция, называемая Dynamic Boost. Так что, если центральному процессору не нужна вся подаваемая мощность и можно ограничиться, скажем, 135 Вт, то на графический процессор можно направить дополнительные 15 Вт. Таким образом, в тестах, которые мы будем рассматривать далее, общая мощность все равно будет 150 Вт.

Теперь перейдем к сравнениям.

На этом скриншоте у нас Borderlands 3. Мы сравниваем RTX 3080 для нашего ноутбука XMG NEO 17 с классическими настольными RTX 3080, 3070 и 3060. Помним, что в ноутбуке установлен Ryzen 5000. При этом в настольном ПК — Core i9 10900K. В принципе, очевидно, что здесь у нас во всех системах имеется ограничение по разрешению в 1440p. Это некая золотая середина для высокопроизводительных ноутбуков с выбранным классом графической мощности.

Конечный результат наглядно можно показать в виде процентного соотношения:

С Death Stranding ситуация опять меняется: здесь десктопная RTX 3080 всего на 35% быстрее XMG NEO 17, а RTX 3070 — на 20%. Если пересмотреть другие игровые тайтлы, то тенденция с ощутимыми колебаниями в производительности только продолжится.

Итак, десктопная RTX 3080 на 40–60% производительнее, чем ее эквивалент для ноутбука, но при этом требует гораздо больше мощности.

Так можно ли приравнять RTX 3080 для ноутбуков к какой-либо конкретной настольной видеокарте?

Возьмем теперь более широкий спектр видеокарт NVIDIA в диапазоне от RTX 2080 до RTX 3070 и будем работать с ними. Возвращаясь к Borderlands 3, в таком случае мобильная RTX 3080 покажет себя на 1% лучше 3060 Ti и на 7% лучше 2080 Super для настольного ПК. Для Control же показатели изменятся до следующих: 3060 Ti будет опережать мобильную RTX 3080 примерно на 4%, а 2080 Super — на 3%. Что касается Shadow of the Tomb Raider — там тоже сохранится незначительное преимущество этих видеокарт. Если перепроверить еще кучу других игр, средние значения везде будут примерно одинаковыми.

Мобильная RTX 3080 и настольная 3060 Ti обе имеют в основе один и тот же графический процессор GA104 и ту же пропускную способность памяти, но различаются количеством ядер CUDA: 4864 против 6144 в ноутбуке — и энергопотреблением: 200 Вт против 150 Вт. Так, 3060 Ti имеет эквивалентную или немного лучшую производительность, потому что через нее проходит 25% дополнительной мощности.

Как упоминалось ранее, в XMG NEO 17 можно масштабировать мощность и определить, какая ее часть будет отдана графическому процессору. Зачем это нужно? Проще говоря, так вы можете обменять производительность на меньшее количество выделяемого тепла. А меньшее выделение тепла, в свою очередь, влияет на скорость вращения вентилятора — а значит, и на уровень шума.

Между потреблением мощности и производительностью на самом деле нет линейной зависимости — это скорее кривая. Ниже приведен пример с Metro Exodus, но аналогичные результаты получались и с другими играми. Итак:

Все это действительно сложно объяснить. Когда дело касается ноутбуков, предлагаемый вам продукт — это больше, чем просто производительность. Речь идет о форм-факторе, акустике — о целой совокупности параметров.

Для другого примера возьмем ASUS ROG Zephyrus G15. В отличие от громоздкого, рассчитанного на максимальную поизводительность XMG, он тонкий и легкий. Тем не менее, ASUS фактически имеет то же железо, но всего с 80-ваттным TGP. При этом в нем имеется турбо-режим, который мы тоже рассмотрим.

Пример первый: Borderlands 3 здесь справляется вполне неплохо, несмотря на разницу в мощности. Турбо-режим на ASUS в целом аналогичен нижнему пределу NEO 17.

В случае Shadow of the Tomb Raider результаты имеют больший разброс, но не забываем, что и потребляемая мощность тоже разная.

Итак, но если 150-ваттная мобильная RTX 3080 в целом аналогична по производительности настольной 3060, что же тогда?

Видеокарта Zephyrus G15 питается мощностью 80 Вт. Глядя на Borderlands 3 здесь, мы видим, что ASUS превосходит RTX 3060, а 95-ваттный турбо-режим дает производительность, соответствующую RTX 2080.

Последний пример — Shadow of the Tomb Raider. Здесь турбо-режим ASUS ведет себя немного больше похоже на 2070 Super — это ближайший к ней настольный эквивалент.

Итак, мы провели довольно большое исследование, показывающее, как одна видеокарта, носящая название RTX 3080, на самом деле не очень похожа на другую RXT 3080, в то время как показатели последней больше говорят о ее схожести с RTX 2080 Super, или 3060 Ti, или 2070 Super, или 3060.

Мобильную RTX 3080 по-хорошему стоило назвать 3080m, чтобы хоть как-то обозначить, что это не то же самое, что ее настольная версия. Когда-то обозначение m действительно имело место, но исчезло с появлением серии 10, когда по сути в ноутбуках были те же чипы, что и десктопные, с примерно одинаковой производительностью. Но время идет, и возвращение обозначения m теперь имеет гораздо больше смысла.

Впрочем, пожалуй, стоит пройти еще дальше. Возможно, XMG NEO должен поставляться с RTX 3080m 150, в то время как Zephyrus — с RTX 3080m 95. В этом случае в обозначениях появляется еще больше конкретики.

Правда в том, что существует так много переменных, которые потенциально могут повлиять на производительность, что трудно зафиксировать их все. Но в конечном итоге кажется, что эту путаницу все-таки можно хотя бы смягчить.

Настольная RTX 3080 лучше всего раскрывает себя при разрешении 4k. Это интересное уточнение в контексте сравнения, потому что все это время мы говорили о 1440p. Выходит, что NEO 17 даже при 115 Вт TGP удается превзойти настольную RTX 3080, работающую на 4k. Так что да: RTX 3080 может обеспечить опыт, эквивалентный десктопной RTX 3080. При этом, она, может быть, не лучшая из лучших, но лучшая в своем роде.

Источник

Обзор видеокарты NVIDIA GeForce RTX 3080, часть 1

Комментарий к одной из главных премьер 2020 года (а до выхода центральных процессоров архитектуры Zen 3 и ускорителей Radeon на большом ядре Navi пожалуй что и самой главной), мы вынуждены начать с плохой новости. Тестовые образцы новых видеокарт еще не приехали в редакцию 3DNews из-за по-прежнему сложной обстановки в международных сообщениях. Да и время обзоров с бенчмарками еще не пришло — их разрешено публиковать не раньше среды 16 сентября. Поэтому сегодня мы ограничимся анализом чипов Ampere и спецификаций продуктов на их основе. Благо серия RTX 30 производит сильное впечатление даже на бумаге, а обновленная архитектура, пусть в этот раз инженеры из Санта-Клары сосредоточились на росте чистого быстродействия вместо функциональных нововведений, тоже заслуживает обстоятельного рассмотрения, чтобы понять, каким образом NVIDIA удалось так сильно прокачать характеристики.

Новые GPU и правда настолько оторвались от своих предшественников, будто вернулись золотые годы Kepler, Maxwell и Pascal, дарившие экспоненциальный рост производительности с каждой итерацией железа. Затем случился Turing — без сомнения, историческое событие не только для NVIDIA, но и для потребительской 3D-графики вообще. Вот только сами потребители были не слишком обрадованы ценами видеокарт, которые чипмейкер смог установить без оглядки на AMD, в то время устранившуюся от конкуренции за рынок топовых ускорителей. К тому же все старания разработчиков Turing были направлены на расширение функций рендеринга при помощи аппаратной трассировки лучей и обработки данных нейросетями, а в играх без рейтрейсинга производительность на доллар у GeForce RTX 20-й серии в лучшем случае не изменилась по сравнению с вечнозелеными «Паскалями» (см. первую и вторую часть нашего исторического тестирования).

Игровые ускорители GeForce RTX 30-й серии в одном предложении можно охарактеризовать так: в 2,5–3 раза больше FP32-совместимых CUDA-ядер, усиленные блоки трассировки лучей и тензорные ядра, и все это на чипах с громадным количеством транзисторов, построенных по нормам 8 нм. А главное, по такой же цене, как у предшественников! Тем не менее у Ampere есть любопытные нюансы как в архитектуре, так и чисто практического свойства. Пока тестовые образцы GeForce RTX 3080 и RTX 3090 еще в пути, давайте разберемся, как устроен Ampere и нет ли поводов усомниться в его безоговорочном доминировании на рынке геймерских видеокарт. Как ни крути, AMD представит 28 октября собственные GPU следующего поколения, и, кажется, в этот раз «красные» готовы к настоящей конкуренции с NVIDIA.

⇡#Серия GeForce RTX 30

В презентации, посвященной игровым продуктам нового поколения, NVIDIA представила три видеокарты: GeForce RTX 3070, RTX 3080 и RTX 3090. Все они должны поступить в продажу в течение следующего месяца, и это относится не только к референсным (Founders Edition), но и к партнерским моделям, которые появятся на магазинных полках в то же время. Дата релиза RTX 3080 — 17 сентября, RTX 3090 запланирован на 24-е, а RTX 3070 ожидается уже 15 октября. Но главное, конечно, это какие возможности и за какую цену предложит NVIDIA, обескураженная неоднозначной реакцией на серию GeForce RTX 20, тем более в условиях возродившейся конкуренцией со стороны AMD.

Судя по всему, что мы смогли выяснить, RTX второго поколения не должен разочаровать. На третьей ступени пьедестала, в качестве замены GeForce RTX 2070, чипмейкер поставил видеокарту с 5888 шейдерными ALU (32-битными CUDA-ядрами). А это, между прочим, в 2,5 раза больше, чем у предшественника! Получается, что даже GeForce RTX 2080 Ti и RTX TITAN уступают младшей из новинок как по CUDA-ядрам FP32 (4352 и 4608 соответственно), так и по теоретической пропускной способности операций над вещественными числами стандартной точности.

Конечно, это очень грубый критерий, который не берет в расчет другие компоненты архитектуры GPU. Ведь мы еще не разобрались, как именно инженеры NVIDIA набили столько ядер в графический процессор второго эшелона — здесь все далеко не так просто, как если бы Turing раздули до таких размеров без глубокой структурной реорганизации. Наконец, как мы еще успеем убедиться, в Ampere значительно усилили блоки трассировки лучей и ввели новый, более эффективный режим работы тензорных ядер. Пока мы не получили в свое распоряжение тестовые образцы, не будем безапелляционно утверждать, что новый GeForce RTX 3070 отправил на свалку истории всю линейку RTX 20, включая 2080 Ti, но, если оценивать по сумме характеристик, возможно, именно так и получится в хорошо распараллеленных задачах GP-GPU, профессиональных рейтрейсерах наподобие Blender и, разумеется, в играх с трассировкой лучей, где GeForce RTX 3070 обещает при разрешении 1440p производительность на 60 % выше, чем у RTX 2070.

GeForce RTX 3090 закрывает серию потребительских ускорителей на чипах Ampere и, скорее всего, останется на вершине модельного ряда вплоть до выхода следующей графической архитектуры NVIDIA. Впоследствии еще могут появиться «Амперы» с приставкой Ti в названии (а может, как знать, и очередные версии SUPER), но это явно будет не RTX 3090 Ti. Дело в том, что флагману достался почти нетронутый кристалл GA102, который потерял всего лишь два SM и содержит фантастические 10 496 32-битных CUDA-ядер стандартной точности. По соответствующим оценкам быстродействия GeForce RTX 3090 в 2,19 раза превосходит TITAN RTX, не говоря уже о пресловутых усовершенствованиях RT- и тензорных ядер. Вместо того чтобы сравнивать этот в хорошем смысле чудовищный ускоритель с каким-либо из предыдущих устройств, NVIDIA было достаточно сказать, что GeForce RTX 3090 стал первой видеокартой, способной выводить игры на 8К-экран с приличной частотой смены кадров и высоким качеством графики, включая трассировку лучей — при помощи масштабирования DLSS в подходящих случаях, но тем не менее.

А вот вопрос о том, является ли объем VRAM у GeForce RTX 3070 и RTX 3080 адекватным их вычислительной мощности, остается открытым. RTX 3080 получит 10 Гбайт нового типа GDDR6X, а RTX 3070 — 8 Гбайт привычной памяти GDDR6. Между тем уже не редкость, когда потребление VRAM современными играми при разрешении 4К выходит за пределы 8 Гбайт. Забегая вперед, скажем, что в перспективе дефицит локальной памяти графического процессора сможет, по крайней мере частично, компенсировать программный интерфейс Microsoft DirectStorage и аппаратная технология RTX IO, на которую он будет опираться в чипах Ampere. Но пока светлое будущее не наступило, RTX 3070 может столкнуться с ограничениями по объему оперативки, которые все-таки мешают назвать его равноценной заменой 11-гигабайтного RTX 2080 Ti.

У «зеленых» продуктов нового поколения есть еще один спорный аспект. NVIDIA не стесняется величин энергопотребления на уровне 320 Вт для GeForce RTX 3080 и целых 350 Вт для GeForce RTX 3090 (аппетиты RTX 3070 оценены в умеренные 220 Вт). Когда в последний раз на нашей памяти референсные видеокарты достигали подобной мощности, это был Radeon RX Vega 64 LC со штатной СЖО (345 Вт) и Radeon VII (300 Вт). Впрочем, мы всегда стояли на позиции, что пользователя стандартного десктопа не должно волновать энергопотребление видеокарты, пока она тихо работает, не перегревается, а главное, отрабатывает затраченное электричество в играх. В последнем мы уже не особенно сомневаемся, а вот для того, чтобы гарантировать «Амперам» адекватное охлаждение, NVIDIA разработала совершенно новый и необычный дизайн референсных видеокарт.

⇡#Графический процессор GA102

Первыми чипами архитектуры Ampere, официально представленными NVIDIA, являются процессор A100, предназначенный для дата-центров и рабочих станций, и GA102, венчающий линейку потребительских продуктов GeForce RTX 30. Достаточно взглянуть на титульные характеристики чипа, чтобы убедиться в том, как далеко шагнула вперед «сырая» вычислительная мощность по сравнению с кремнием Turing.

Судите сами. Микроархитектура полностью функциональной версии GA102 представлена семью блоками GPC (Graphics Processing Cluster, крупнейшими масштабируемыми компонентами массива) — против шести на кристалле TU102. Каждый из них по-прежнему содержит растеризатор, выполняющий проекцию геометрии в пикселы, и 12 потоковых мультипроцессоров (Streaming Multiprocessor), вот только набор 32-битных CUDA-ядер, обрабатывающих вещественные числа, внутри SM был удвоен. В результате формула главных исполнительных блоков GA102 включает 10 752 FP32-совместимых CUDA-ядер и 336 блоков наложения текстур.

Другая особенность GA102, заметная с высоты птичьего полета, состоит в том, что блоки операций растеризации (ROP) больше не привязаны к контроллерам оперативной памяти и теперь являются компонентом GPC — единиц, из которых компания собирает процессоры различной мощности под тот или иной транзисторный и долларовый бюджет. В последнем замечании и кроется причина миграции ROP под одну крышу с потоковыми мультипроцессорами (SM). Инженеры NVIDIA стремятся выровнять пропускную способность начальной и конечной стадий конвейера рендеринга, а именно пиксельный филлрейт ROP и скорость работы растеризаторов. Растеризатор внутри GPC выдает 16 цветных пикселов за такт, а каждый ROP смешивает или закрашивает один пиксел. Теперь, когда GPC содержит 16 ROP, установилось соотношение 1:1 между пропускной способностью растеризаторов и блоков растровых операций, не зависящее от конфигурации шины памяти. Общее число блоков операций растеризации GA102 составляет 112 штук.

Таким образом GA102 получил в общей сложности 112 ROP против 96 в TU102, избежав ограничения по пиксельному филлрейту, которое обязательно возникло бы в рамках предшествующей архитектуры. С другой стороны, в «мелких» чипах Ampere класса GA106 не возникнет бутылочное горлышко на стороне растеризаторов, как произошло с TU106: растеризаторы в составе трех GPC выпускают 48 пикселов за такт, в то время как 64 ROP могут закрасить, соответственно, 64 пиксела.

Громадный массив исполнительных блоков GA102 питает данными 384-битная шина оперативной памяти с поддержкой нового типа микросхем GDDR6X, который мы тоже обсудим в свое время. А вот объем кеша второго уровня, как и в TU102, равен 6 Мбайт. Наконец, для связи с внешним миром используется шина PCI Express Gen 4 и интерфейс NVLink — активный в GeForce RTX 3090, но отключенный в RTX 3080. Хотя общая пропускная способность мостика осталась практически такой же, как у потребительских ускорителей архитектуры Turing (112,5 Гбайт/с в обе стороны против 100 Гбайт/с ранее), в действительности это другой интерфейс, состоящий из четырех линий x4 скоростью 28,13 Гбайт/с вместо двух широких x8 на 50 Гбайт/с.

Процессор состоит ни много ни мало из 28 млрд транзисторов и является самым крупным ASIC на сегодняшний день после самого GA100 (54 млрд). Для сравнения: прямой предшественник новинки, старший «Тьюринг» TU102, содержит уже не столь впечатляющие 18,6 млрд компонентов. Настолько резкий прирост транзисторного бюджета стал возможен благодаря переходу на следующую технологическую норму после 12-нм процесса TSMC, которым NVIDIA пользовалась для производства «Тьюрингов». Исполнителем заказа на фотолитографию GA102 стал Samsung, а номинальный размер транзистора составляет 8 нм. Точно так же, как 12-нанометровая технология Turing в официальных документах NVIDIA фигурирует под названием 12 нм FFN (FinFet NVIDIA), самсунговский узел 8N был неким образом оптимизирован под чипы Ampere. Об особенностях этого конвейера нам вообще мало что известно в силу того, что он используется далеко не так активно, как близкий по номиналу 7-нм TSMC. Немедленно возникает вопрос, почему NVIDIA на этот раз выбрала Samsung, а не TSMC, но дело, скорее всего, не в технических достоинствах 8-нм FN, а в цене производства на мощностях TSMC, которые сейчас загружены другими клиентами первой величины — такими как AMD и Apple, — да и сама NVIDIA заказывает серверные процессоры GA100 там же. Благо NVIDIA недавно объявила о том, что продукты для дата-центров теперь составляют большую часть ее бизнеса, давно выделила соответствующие чипы в отдельную ветку эволюции и не нуждается в том, чтобы удешевлять производство высокомаржинальных продуктов за счет накрутки объема заказов у того же подрядчика геймерскими ускорителями.

И все-таки GA102 — чрезвычайно крупный, а главное, прожорливый кусок кремния. Однако NVIDIA обещает, что с энергоэффективностью у Ampere полный порядок: по официальным данным, производительность на ватт мощности у GeForce RTX 3080 возросла на 90 % по сравнению с GeForce RTX 2080 SUPER. Главная заслуга в этом принадлежит техпроцессу 8 нм, но свою роль сыграла и оптимизация схемотехники — в частности, раздельные линии питания для ядра GPU и системы памяти. Кроме того, по объявленным тактовым частотам видеокарт Ampere недалеко ушел от Turing. NVIDIA решила увеличить быстродействие за счет укрупнения чипов, всегда более выгодного с позиции энергоэффективности, а не прямого разгона, обычно ассоциируемого со сменой технологической нормы.

Кроме того, невзирая на все пугающие числа, которыми характеризуется процессор GA102, — количество CUDA-ядер, площадь и энергопотребление кристалла, достоинства Ampere не сводятся к грубой силе. Архитектура графических процессоров NVIDIA прошла очередной виток усовершенствований, которые нам предстоит рассмотреть в этом обзоре.

Производитель	NVIDIA
Название	TU104	TU102	GA104	GA102
Микроархитектура	Turing	Turing	Ampere	Ampere
Техпроцесс, нм	12 нм FFN	12 нм FFN	8 нм (8N)	8 нм (8N)
Число транзисторов, млн	13 600	18 600	17 400	28 300
Площадь чипа, мм2	545	754	392,5	628
Число SM/TPC/GPC
Streaming Multiprocessors (SM)	48	72	48	84
Thread Processing Clusters (TPC)	24	36	24	42
Graphics Processing Clusters (GPC)	6	6	6	7
Конфигурация потокового мультипроцессора (SM)
CUDA-ядра FP16	Нет	Нет	Нет	Нет
CUDA-ядра FP32	4 × 16	4 × 16	4 × 32	4 × 32
CUDA-ядра FP64	2	2	2	2
CUDA-ядра INT32	4 × 16	4 × 16	4 × 16	4 × 16
ALU специального назначения (SFU)	4 × 4	4 × 4	4 × 4	4 × 4
Тензорные ядра	4 × 2	4 × 2	4 × 1	4 × 1
RT-ядра	1	1	1	1
Блоки наложения текстур (TMU)	4	4	4	4
Объем регистрового файла, Кбайт	256	256	256	256
Объем кеша L1, Кбайт	32/64 из 96 (общий с разделяемой памятью)	32/64 из 96 (общий с разделяемой памятью)	До 64 из 128 (общий с разделяемой памятью)	До 64 из 128 (общий с разделяемой памятью)
Объем разделяемой памяти, Кбайт	32/64 из 96 (общий с кешем L1)	32/64 из 96 (общий с кешем L1)	До 100 из 128 (общий с кешем L1)	До 100 из 128 (общий с кешем L1)
Программируемые вычислительные блоки GPU
CUDA-ядра FP16	Нет	Нет	Нет	Нет
CUDA-ядра FP32	3 072	4 608	6 144	10 752
CUDA-ядра FP64	96	144	96	168
CUDA-ядра INT32	3 072	4 608	3 072	5 376
ALU специального назначения (SFU)	768	1 152	768	1 344
Тензорные ядра	384	576	192	336
RT-ядра	48	72	48	84
Блоки GPU фиксированной функциональности
Блоки наложения текстур (TMU)	192	288	192	336
Блоки операций растеризации (ROP)	64	96	96	112
Конфигурация памяти
Объем кеша L2, Кбайт	4 096	6 144	4 096	6 144
Разрядность шины RAM, бит	256	384	256	384
Тип микросхем RAM	GDDR6 SGRAM	GDDR6 SGRAM	GDDR6 / (GDDR6X?) SGRAM	GDDR6X/GDDR6X SGRAM
Интерфейс NVLINK	1 × NVLink 2.0 x8	2 × NVLink 2.0 x8	Н/Д	4 × NVLink 3.0 x4
Интерфейс PCI Express	3.0 x16	3.0 x16	3.0 x16	3.0 x16

⇡#SM в архитектуре Ampere

Начиная с чипов Maxwell, инженеры NVIDIA делят Streaming Multiprocessor на четыре секции с различным числом вычислительных блоков внутри (в зависимости от конкретной реализации в том или ином GPU) и в предыдущем поколении архитектуры (Turing) пришли к тому, что секция SM содержит 16 CUDA-ядер, оперирующих форматом данных FP32. Кроме того, в процессорах Volta и Turing, отделили пути данных для операций над целыми числами внутри CUDA-ядер от арифметики с плавающей запятой — таким образом возник блок из 16 целочисленных CUDA-ядер, а общее число ALU, которые могут быть загружены одновременно, эффективно удвоилось.

Внутри секции SM находится собственный планировщик, который за такт отправляет на исполнение одну инструкцию warp’a (группы из 32 потоков инструкций — т.н. рабочих единиц), которая позволяет совершить одну и ту же операцию над 32 операндами. Благодаря тому, что блоку из 16 шейдерных ALU требуется два такта, чтобы выполнить инструкцию, во втором такте планировщик остается свободен. Нечетные такты планировщика могут быть заняты отправкой инструкций из другого warp’а на 16 целочисленных ALU (или другие типы исполнительных блоков, которые мы пока не упоминали), поэтому теоретическая пропускная способность Turing при полной загрузке целочисленными расчетами и операциями с плавающей точкой в одно и то же время также увеличилась в два раза по сравнению с исключительно дробной или исключительно целочисленной арифметикой.

В комментариях к обзорам ускорителей на Turing неоднократно звучало мнение, что NVIDIA следовало вложиться в большее число CUDA-ядер вместо специализированных блоков трассировки лучей, которые якобы помешали чипмейкеру выпустить GPU, способные сохранить прежние темпы роста производительности. И хотя серия GeForce RTX 20 действительно оказалась не самым удачным примером роста быстродействия по сравнению с ее предшественниками, не говоря уже об удельной стоимости FPS, обвинять в этом рейтрейсинг не совсем корректно. В конце концов, на ALU общего назначения по-прежнему ложится львиная доля нагрузки при пересчете шейдеров во время множественных отражений лучей, а также денойзинг изображения, необходимый при сравнительно низкой плотности последних в рендеринге реального времени.

Тем не менее вот ответ NVIDIA всем тем, кому не доложили шейдерных ALU в архитектуре Turing: теперь количество CUDA-ядер FP32 внутри секции SM стало вдвое больше. Ampere вернулся к исходным позициям архитектуры Pascal, когда на одном и том же пути данных лежит массив 16 ALU FP32 и 16 целочисленных ALU INT32, но появилась отдельная ветка из 16 FP32-совместимых CUDA-ядер. Таким образом, при равном количестве SM теоретическая производительность Ampere в операциях над 32-битными вещественными числами увеличилась в два раза по сравнению с Turing. Пожалуй, это главное, что нужно вынести из обзора новых чипов, если нет интереса к более изощренным аспектам новой архитектуры.

Польза от реорганизации SM еще и в том, что транзисторный бюджет процессора не так сильно раздулся, как если бы NVIDIA просто нарастила их количество. Чтобы насытить потребности усиленного SM в быстром доступе к данным, объем кеша L1, общий с разделяемой памятью, был увеличин с 96 до 128 Кбайт, а его пропускная способность — с 64 до 128 байт за такт. Кроме того, Ampere допускает более гибкие пропорции между L1 и разделяемой памятью. Раньше можно было выделить только 64 из 96 Кбайт одному типу данных. Теперь разделяемая память может занять вплоть до 100 Кбайт в задачах GP-GPU, хотя полезный объем кеша L1 и текстурного кеша для 3D-рендеринга по-прежнему не превышает 64 Кбайт.

Объем регистрового файла — ближайшего к ALU и, соответственно, самого быстрого типа памяти в графическом процессоре — как и прежде составляет 256 Кбайт, а значит, остаются в силе ограничения на одновременную загрузку компонентов SM: если точнее, во время работы тензорного ядра планировщик не может инициализировать никакие другие из основных вычислительных блоков из-за давления на регистровый файл. Однако тензоры в новой архитектуре мы рассмотрим подробнее чуть позже.

Несмотря на всю мощь Ampere, о реальном быстродействии, близком к проектным значениям, может идти речь только при рафинированной вещественночисленной нагрузке, ведь блок INT32-ядер теперь снова висит на одной ветке с одним из двух блоков FP32. Кроме того, на такты планировщика в SM претендует масса других компонентов.

Наконец, в Turing и Ampere есть скалярные ALU, которые используются операциями условного ветвления, перехода и прочей целочисленной арифметики. В таких случаях все значения операций одной SIMT-инструкции одинаковы и вместо того, чтобы загружать ими INT32-блоки, 32 операции скаляризирутся в одну. Каждая секция SM содержит один скалярный блок, который выполняет свою инструкцию за два такта и занимает один такт планировщика для инициализации. Таким образом, скалярные операции Ampere не имеют никаких преимуществ в пропускной способности перед векторными, только в энергоэффективности.

Если не считать скалярных ALU и тензорных операций, конкуренция исполнительных блоков за такты планировщика позволяет параллельно отрабатывать внутри секции SM не больше трех разнотипных нагрузок из четырех возможных: арифметика с вещественными числами стандартной точности (на CUDA-ядрах FP32), с целыми (INT32), с вещественными половинной точности (FP16) и тригонометрические операции (SFU). Благодаря тому, что FP32- и INT32-инструкции бегают на своих ALU по два такта, а SFU — по восемь, допустимы различные комбинации между ними. Кроме того, клиентом планировщика является еще и блок ветвлений, а также группа блоков load/store. Чтобы задействовать какой-либо из них, в этот такт планировщик не может отдать инструкцию для исполнения на шейдерных ALU.

Расчеты пропускной способности, которую развивает SM графических процессоров Ampere, приведены в таблице для сравнения с архитектурами Turing, Pascal, а также соперничающими «красными» решениями — RDNA и GCN, по-прежнему бодро чувствующими себя в сфере GP-GPU. Заметим, что мы не стремились охватить абсолютно все сочетания инструкций, которые возможны в рассмотренных архитектурах. Пропуск тактов ALU, который в чипах NVIDIA могут вызывать операции load/store, тоже не берется во внимание (GCN и, скорее всего, RDNA обходит последнее ограничение за счет большого числа портов планировщика). Опустим и скалярные операции в Turing и Ampere, поскольку они лишь замещают нагрузку на блоках INT32 в подходящий момент. В GCN и RDNA векторые и скалярные инструкции даются одновременно (при условии, что наше понимание архитеткур AMD в условиях ограниченной информации корректно).

Все, что нам было нужно, это оценить быстродействие при работе с тем или иным форматом данных — FP32, INT32, FP16, а также в тригонометрических операциях. С учетом темпа исполнения медленных инструкций мы взяли за временной интервал пропускной способности восемь тактов GPU — таким образом, в таблице остается меньше дробных чисел.

Источник

Аналитический информационный портал

Что такое rtx 3080

Изучаем референсные NVIDIA GeForce RTX 3080 и GeForce RTX 3090: разгон и тестирование в 8K

Оглавление

Вступление

реклама

RTX 3080 для ноутбуков — насколько это реально RTX 3080?

Обзор видеокарты NVIDIA GeForce RTX 3080, часть 1

⇡#Серия GeForce RTX 30

⇡#Графический процессор GA102

⇡#SM в архитектуре Ampere

Добавить комментарий Отменить ответ

Изучаем референсные NVIDIA GeForce RTX 3080 и GeForce RTX 3090: разгон и тестирование в 8K

Оглавление

Вступление

реклама

RTX 3080 для ноутбуков — насколько это реально RTX 3080?

Обзор видеокарты NVIDIA GeForce RTX 3080, часть 1

⇡#Серия GeForce RTX 30

⇡#Графический процессор GA102

⇡#SM в архитектуре Ampere

Вам также понравится

Что такое boot mode в биосе

Чем питаются простейшие организмы

Чем обшить стены лоджии

Добавить комментарий Отменить ответ