Что такое numa bios

Non-Uniform Memory Architecture (NUMA)

Не так давно, мы рассмотрели основные преимущества и недостатки простейшего варианта организации неоднородной архитектуры памяти (NUMA), реализуемой в двухпроцессорных платформах AMD Opteron. В этом случае, подсистема памяти платформы была построена всего из двух двухканальных контроллеров памяти («узлов»), каждый из которых либо содержал (конфигурация «2+2»), либо не содержал (конфигурация «4+0») собственную оперативную память. При этом связь между контроллерами осуществлялась посредством одной двунаправленной шиной HyperTransport.

Теперь настало время (а точнее, выдалась возможность) изучить более сложную организацию NUMA, которую можно реализовать на четырех контроллерах памяти процессоров AMD Opteron. Для наглядности, представим ее в виде блок-схемы.

Итак, что мы имеем: каждый контроллер памяти наделен собственной оперативной памятью (более «дешевые» варианты, с отсутствием собственной памяти у того или иного узла здесь не рассматриваем, поскольку такие предложения, пожалуй, практически невозможно встретить на рынке для сравнительно дорогих четырехпроцессорных платформ AMD Opteron), при этом каждый из узлов связан с двумя соседними посредством двух свободных шин процессора HyperTransport (напомним, что процессоры AMD Opteron имеют три шины HyperTransport, однако в данном случае одна из них отводится на связь с периферическими устройствами посредством моста PCI-X чипсета).

Таким образом, усложнение организации неоднородной архитектуры памяти неизбежно увеличивает и меру ее неоднородности. Так это выглядит в теории, но мы, как всегда, проверим это на практике, проведя реальные количественные оценки.

Конфигурация тестового стенда и ПО

Исследование проводилось в стандартном режиме тестирования подсистемы памяти любой платформы. Измерялись: средняя реальная пропускная способность памяти (ПСП) при операциях простого линейного чтения и записи данных из памяти/в память, максимальная реальная ПСП при операциях чтения (с программной предвыборкой данных, Software Prefetch) и записи (методом прямого сохранения данных, Non-Temporal Store), а также латентность памяти при псевдослучайном и случайном обходе 16-МБ блока данных.

Как и в случае нашего предыдущего исследования NUMA-архитектуры, отличием от общепринятой методики явилась «привязка» потока, исполняющего тест к определенному физическому процессору. При этом размещение блока данных в памяти всегда осуществляется первым процессором (т.е. блок выделяется в физической памяти первого процессора), после чего запуск тестов может быть осуществлен как на том же, первом, так и на любом другом присутствующем в системе процессоре. Это позволяет оценить параметры обмена данными между процессором и памятью, принадлежащей как собственному, так и любому другому процессору.

Симметричная 4-узловая NUMA, SRAT, No Node Interleave

В настройках BIOS оказавшегося в нашем распоряжении сервера STSS QDD4400 можно варьировать три параметра, относящихся к подсистеме памяти: включение/выключение режима SRAT («Enabled/Disabled»), режима Node Interleave («Auto/Disabled») и Bank Interleave («Auto/Disabled»).

Несколько слов, по порядку, о каждом из них: SRAT означает System Resource Affinity Table, и включение этого режима приводит к созданию в данных ACPI особой таблицы с одноименным названием, которая позволяет операционной системе правильно ассоциировать процессоры и принадлежащие им области памяти — что, в случае NUMA-систем, оказывается крайне полезным и нужным. Конечно, все это выполняется при условии поддержки данной технологии со стороны ОС. К счастью, Windows Server 2003 SP1 относится к числу таких операционных систем. Заметим, однако, что для нашего сегодняшнего тестирования такая возможность совершенно не существенна, ибо, как мы уже писали выше, мы осуществляем ручную «привязку» нашего тестового приложения к данному конкретному процессору, тогда как SRAT актуальна для обычных приложений, не осуществляющих подобную «привязку».

Node Interleave, напротив, можно считать интересным решением для ОС и приложений, ничего не знающих об архитектуре NUMA. Суть этого решения, как мы уже писали, заключается в чередовании памяти по 4-КБ страницам между модулями, находящимися на разных узлах (контроллерах памяти процессоров). В результате чего достигается практически полная симметризация изначально несимметричной архитектуры NUMA, поскольку любой выделяемый блок данных в памяти будет равномерно «раскинут» по адресному пространству всех контроллеров памяти. Отметим, что рассматриваемая платформа не позволяет включить режим Node Interleave при включении режима SRAT, что, в общем-то, вполне естественно.

Наконец, Bank Interleave есть просто чередование доступа к логическим банкам модуля памяти. Поскольку наши предыдущие тесты показали некоторое увеличение производительности подсистемы памяти при включении этого режима («Auto»), мы решили оставить этот параметр неизменным.

Итак, первая серия тестов: SRAT включен, Node Interleave выключен (в силу включения SRAT), Bank Interleave включен («Auto»). Еще раз отметим, что такие же результаты мы получили бы и без задействования режима SRAT, просто отключив режим Node Interleave.

ХарактеристикаCPU 0CPU 1CPU 2CPU 3
Средняя реальная ПСП на чтение, МБ/с *2424
(48.2%)
2003
(39.8%)
1917
(38.1%)
1666
(33.1%)
Средняя реальная ПСП на запись, МБ/с *2187
(43.5%)
1645
(32.7%)
1551
(30.8%)
1437
(28.6%)
Максимальная реальная ПСП на чтение, МБ/с *4779
(95.0%)
2992
(59.5%)
2870
(57.1%)
3001
(59.7%)
Максимальная реальная ПСП на запись, МБ/с *4133
(82.2%)
2548
(50.7%)
2317
(46.1%)
2457
(48.9%)
Минимальная латентность псевдослучайного доступа, нс **56.158.959.773.0
Максимальная латентность псевдослучайного доступа, нс **59.563.164.478.5
Минимальная латентность случайного доступа, нс **104.4114.0119.0146.7
Максимальная латентность случайного доступа, нс **105.7118.2123.2150.5

* в скобках указаны величины относительно теоретического предела ПСП
(5028 МБ/с)

Доступ процессора CPU0 (учитывая, что процессоры двухъядерные, здесь и далее под «процессором» будем всегда понимать первое ядро данного физического процессора; впрочем, с равным успехом можно было бы рассмотреть и второе ядро, главное — рассматривать разные физические процессоры) к собственной памяти характеризуется вполне приемлемыми величинами ПСП и латентностей. Так, при операциях чтения с Software Prefetch достигается 95% теоретической ПСП, которая в данном случае равна 5028 МБ/с (частота памяти составляет 2200 / 14 = примерно 157 МГц). Вследствие асинхронного режима работы подсистемы памяти, латентности оказываются заметно выше по сравнению с результатами предыдущих тестов, в которых использовалась память DDR-400.

Доступ CPU0 к «чужой» памяти соседних процессоров CPU1 и CPU2, как и следовало ожидать, имеет сходные характеристики в обоих случаях, с некоторым преимуществом в пользу CPU1. При этом максимальная реальная ПСП на чтение снижается до уровня 57-59% от теоретической. Снижение ПСП оказывается менее выраженным по сравнению с тем, что наблюдалось ранее с памятью DDR-400, ибо здесь важен сам факт снижения ПСП до уровня 3.0 — 3.2 ГБ/с, который, по-видимому, является реальным пределом скорости передачи данных по шине HyperTransport, имеющей теоретическую ПС 4.0 ГБ/с. Не может не удивлять весьма незначительное возрастание латентностей для этого случая: при псевдослучайном обходе они возрастают всего на 2-5 нс, при случайном — на 10-17 нс. Заметим, что в проведенных ранее тестах 2-узловой симметричной NUMA латентности при доступе к «чужой» памяти возрастали весьма существенно — в среднем, с 45 нс при доступе к «своей» памяти до 70 нс при доступе к «чужой». Чем вызвано столь незначительное увеличение латентностей в данном случае — не очень понятно, по-видимому, все-таки серьезно сказывается асимметричный режим работы памяти, вносящий заметные задержки уже при доступе к «своей» памяти, которые отчасти маскируются при доступе к «соседней» памяти.

Наконец, нам осталось рассмотреть доступ процессора CPU0 к «дважды чужой», совсем удаленной памяти процессора CPU3, который осуществляется последовательно по двум шинам HyperTransport. Как ни странно, такой режим доступа практически не уступает по максимальной реальной ПСП доступу к соседней памяти — она сохраняется на уровне 3.0 ГБ/с для операций чтения и 2.4 ГБ/с для операций записи. Несколько снижается лишь средняя реальная ПСП, примерно с 2.0 ГБ/с (чтение «соседней» памяти) до 1.67 ГБ/с (чтение «дважды удаленной памяти»). Кроме того, здесь дополнительно возрастают задержки, но вновь незначительно. При псевдослучайном обходе увеличение задержек составляет 18-19 нс относительно доступа к «своей» памяти (14-15 нс относительно доступа к «соседней»), а при случайном — 42-45 нс относительно доступа к «своей» памяти (32-37 нс относительно доступа к «соседней» памяти).

Симметричная 4-узловая NUMA, No SRAT, Node Interleave

Переходим ко второй серии тестов: отключаем режим SRAT, оставляем настройки режимов Node Interleave и Bank Interleave в положении «Auto».

ХарактеристикаCPU 0CPU 1CPU 2CPU 3
Средняя реальная ПСП на чтение, МБ/с *1960
(39.0%)
1976
(39.3%)
1970
(39.2%)
1979
(39.3%)
Средняя реальная ПСП на запись, МБ/с *1715
(34.1%)
1754
(34.9%)
1719
(34.1%)
1740
(34.6%)
Максимальная реальная ПСП на чтение, МБ/с *3290
(65.4%)
3291
(65.5%)
3293
(65.5%)
3289
(65.4%)
Максимальная реальная ПСП на запись, МБ/с *2671
(53.1%)
2701
(53.7%)
2671
(53.1%)
2696
(53.6%)
Минимальная латентность псевдослучайного доступа, нс **104.5103.2102.9102.0
Максимальная латентность псевдослучайного доступа, нс **105.7104.8105.1104.2
Минимальная латентность случайного доступа, нс **123.9122.9123.1122.5
Максимальная латентность случайного доступа, нс **125.0124.0123.9123.4

* в скобках указаны величины относительно теоретического предела ПСП
(5028 МБ/с)

Как и следовало ожидать, включение Node Interleave позволяет достичь практически полной симметризации NUMA и в случае ее 4-узловой организации. Заметим, что максимальная реальная ПСП на чтение и в этом случае оказывается ограниченной на уровне 65-66% от теоретической ПСП, по остальным показателям пропускной способности симметризация 4-узловой, да вдобавок — асинхронной конфигурации NUMA несколько проигрывает симметризации простой симметричной синхронной 2-узловой NUMA (так, становится более заметно снижение ПСП при операциях записи, а также неоптимизированного чтения).

Интересно также отметить значительное возрастание латентностей при псевдослучайном обходе — почти в два раза по сравнению с латентностью псевдослучайного доступа процессора к «собственной» памяти. Кроме того, среднюю величину латентности (104-106 нс) в этом случае уже нельзя получить простым усреднением величин, полученных при доступе к памяти, принадлежащей CPU0, со стороны всех четырех процессоров — такое среднее значение составило бы всего 62-66 нс. Вероятно, здесь виновато более сложное чередование страниц памяти, принадлежащих всем четырем контроллерам, что делает данный режим отчасти похожим на случайный обход (напомним, что основой псевдослучайного обхода, реализованного в RMMA, является линейный, прямой последовательный обход на уровне страниц памяти при условии случайности обхода внутри самой страницы — однако в данном случае нарушается линейность на уровне физических страниц памяти, ибо каждые четыре последовательно расположенные, на логическом уровне, страницы памяти принадлежат разным физическим адресным пространствам).Заключение

В нашей предыдущей статье, посвященной архитектуре NUMA в виде простейшего 2-узлового варианта, мы уже показали ее превосходство над традиционным SMP-подходом. Наши сегодняшние тесты показывают, что данное утверждение можно распространить и на случай более сложной, 4-узловой конфигурации NUMA.

Чтобы продемонстрировать это, приведем таблицу, аналогичную представленной в нашей прошлой статье. Рассмотрим в ней традиционные SMP-системы (многопроцессорные, в т.ч. двухъядерные или многопроцессорные двухъядерные платформы Intel Xeon/Pentium D), 2-узловые NUMA-системы (двухпроцессорные, в т.ч. двухпроцессорные двухъядерные платформы AMD Opteron) и 4-узловые NUMA-системы (четырехпроцессорные, в т.ч. четырехпроцессорные двухъядерные платформы AMD Opteron). Для двух последних рассмотрим режим их работы как при включенном, так и отключенном Node Interleave. Для наглядности, дабы не быть привязанным к количественным характеристикам того или иного типа памяти, представим относительные величины пиковой пропускной способности (в виде числа раз). Наконец, отметим, что цифры для неоптимизированных многозадачных/многопоточных случаев на NUMA-системах получены простым масштабированием, т.е. в предположении отсутствия коллизий при передаче данных по шинам HyperTransport.

ПлатформаПиковая пропускная способность подсистемы памяти *
Однопоточное приложение, количество копийМногопоточное приложение **NUMA-aware многопоточное приложение **
124
SMP1.001.001.001.001.00
Симметричная
2-узловая NUMA
0.65
(1.00 ** )
1.30
(2.00 ** )
1.30
(2.00 ** )
1.002.00
Симметричная
2-узловая NUMA, Node Interleave
0.651.301.301.301.30
Симметричная
4-узловая NUMA
0.65
(1.00 ** )
1.30
(2.00 ** )
2.60
(4.00 ** )
1.004.00
Симметричная
4-узловая NUMA, Node Interleave
0.651.302.602.602.60

* относительно максимальной теоретической ПСП для одного контроллера памяти

** число потоков, обращающихся к памяти, не менее 4

Пройдемся вкратце по всем типам систем. Итак, SMP-системы: максимально возможная пропускная способность подсистемы памяти не зависит от типа и количества запущенных приложений и всегда составляет единицу — т.е. пропускную способность единственного присутствующего в системе контроллера памяти.

2-узловые NUMA-системы: реальный проигрыш SMP-системам наблюдается лишь в случае однопоточных приложений, если они не привязаны к определенному процессору — в этом случае примерно 50% обращений осуществляется к «собственной» памяти, а оставшиеся 50% — к «чужой», в результате чего максимальная реальная ПСП снижается до уровня, наблюдаемого при включении режима Node Interleave. Не демонстрируют преимущества также неоптимизированные многопоточные приложения, которые выделяют память в пространстве лишь одного из контроллеров, в результате чего оказываются ограниченными по пропускной способности именно этого контроллера. Как видно из таблицы, подобное ограничение можно устранить оптимизацией многопоточного приложения под NUMA-архитектуру (при этом каждый из процессоров, в идеале, работает исключительно со «своей» памятью), либо задействовать режим Node Interleave, симметризующий подсистему памяти (однако его полезность ограничена лишь этим случаем).

4-узловые NUMA-системы ведут себя аналогично 2-узловым, за одним важным исключением — они позволяют достичь еще больших величин пиковой пропускной способности подсистемы памяти, при условии запуска нескольких приложений, правильно «раскиданных» по процессорам, либо в случае NUMA-оптимизированных многопоточных приложений (при наличии не менее 4 потоков, ведущих обмен с памятью). Не лишены эти системы и недостатков, присущих 2-узловым NUMA-системам. А именно, они не показывают преимущества над SMP-системами при запуске всего одного однопоточного, либо неоптимизированного многопоточного приложения. Впрочем, для последнего случая и здесь существует решение в виде уже хорошо известного нам режима Node Interleave, однако вновь напомним, что его полезность ограничена этим и только этим случаем, вряд ли широко встречающимся на практике. Нетрудно убедиться, что во всех остальных случаях включение Node Interleave способно не только не улучшить, но и ухудшить скоростные показатели подсистемы памяти.

Источник

Numa BIOS

Содержание

Адаптация к материнской плате Aquarius AQBM1000 на базе Baikal-M

Компании «Байкал Электроникс» и «НумаТех» объявили о подписании соглашения о сотрудничестве, направленного на развитие экосистемы ПО и создание средств защиты информации для вычислительной техники, реализованных с использованием российских ARM-процессоров Baikal. Об этом «Байкал Электроникс» сообщил 23 декабря 2021 года. На декабрь 2021 года компанией «НумаТех» выполнена модификация и адаптация Numa BIOS и МДЗ Numa Arce для функционирования на материнской плате Aquarius AQBM1000, реализованной на базе процессора Baikal-M. Подробнее здесь.

Адаптация Numa BIOS для ноутбуков RAYbook

ICL Техно 10 февраля 2021 года сообщил, что совместно с НумаТех подписали соглашение о технологическом партнерстве.

Компании начали сотрудничество в области разработки и производства средств вычислительной техники с высокой степенью локализации. В планах – использование совместных компетенций для создания как отдельных продуктов, так и комплексных ИТ-решений, отвечающих требованиям по безопасности информации.

Стоит отметить, что для компьютерного и серверного оборудования производства ICL Техно, где в качестве базовой системы ввода-вывода будет использоваться Numa BIOS, будет доступна возможность использования модуля доверенной загрузки Numa Arce, сертифицированного ФСТЭК России. Numa Arce реализован в виде EFI приложения и может применяться для защиты информации в государственных информационных системах, информационных системах персональных данных, на объектах критической информационной инфраструктуры, а также в автоматизированных системах управления технологическими процессами.

Отдельные исполнения серверных аппаратных платформ ICL Техно будут производиться с предустановленным доверенным Numa BIOS, позволяющим использовать оборудование в составе решений, к которым предъявляются требования по безопасности информации (ИСПДн, ГИС, КИИ), а также в качестве основы для создания программно-технических средства защиты информации. Кроме того, компании планируют проводить совместные работы по созданию комплексных решений, базирующихся на использовании доверенной системы серверной виртуализации Numa vServer, предназначенных для построения виртуальных инфраструктур, масштабирующихся до геораспределённого частного или гибридного облака.

2020: Завершение разработки отечественной базовой системы ввода-вывода Numa BIOS для DEPO Neos

9 октября 2020 года компания «НумаТех» сообщила о завершении разработки отечественной базовой системы ввода-вывода Numa BIOS, предназначенной для оснащения персональных устройств линейки DEPO Neos производства «ДЕПО Компьютерс». Данная разработка является результатом технологического партнерства российского производителя вычислительной техники и российского разработчика системного, специализированного программного обеспечения и средств защиты информации.

Что такое numa bios. Смотреть фото Что такое numa bios. Смотреть картинку Что такое numa bios. Картинка про Что такое numa bios. Фото Что такое numa bios

Что такое numa bios. Смотреть фото Что такое numa bios. Смотреть картинку Что такое numa bios. Картинка про Что такое numa bios. Фото Что такое numa bios

По информации компании, соглашение о сотрудничестве и технологическом партнерстве между российскими компаниями «ДЕПО Компьютерс» и «НумаТех» предполагает использование научно-технического, технологического и производственного потенциала сторон для создания российской вычислительной техники, соответствующей критериям импортозамещения.

На октябрь 2020 года линейка автоматизированных рабочих мест DEPO Пересвет и линейка моноблоков DEPO Neos внесены в реестр отечественной вычислительной техники, который опубликован на сайте Минпромторга РФ. Данные персональные устройства производятся в России на базе отечественной материнской платы ДЕПО.

Для повышения уровня информационной безопасности и расширения возможностей линейки персональных устройств линейки DEPO Neos совместно с компанией «НумаТех» проведены работы по разработке и отладке специального исполнения российской базовой системы ввода-вывода Numa BIOS для материнской платы ДЕПО.

Программное обеспечение Numa BIOS для «ДЕПО Компьютерс» создано по специально разработанному техническому заданию и реализует все возможности материнской платы ДЕПО, обеспечивает поддержку отечественных операционных систем и совместимость с российскими аппаратными идентификаторами в форм-факторе смарт-карт и USB-токенов. Поскольку исходные коды Numa BIOS принадлежат российской компании «НумаТех», персональные устройства DEPO Neos с данным вариантом базовой системы ввода-вывода полностью готовы к сертификации по требованиям информационной безопасности в соответствии с действующей в России нормативно-правовой базой, в том числе в соответствии с требованиями российских силовых министерств и ведомств.

Numa BIOS входит в Реестр отечественного программного обеспечения (реестр опубликован на сайте Минкомсвязи РФ). Базовая система ввода-вывода, разработанная компанией НумаТех, полностью соответствует спецификации UEFI 2.7.

Помимо операционных систем семейства Windows и свободно-распространяемых дистрибутивов Linux, Numa BIOS обеспечивает загрузку и полноценное функционирование отечественных операционных систем специального назначения. Протестирована работа ОС Astra Linus Special Edition (релиз «Смоленск») на материнской плате ДЕПО с Numa BIOS. Являясь отечественной альтернативой BIOS иностранного производства, Numa BIOS делает возможным использование персональных устройств DEPO Neos российскими заказчиками.

Для заказчиков, предъявляющих расширенные требования к информационной безопасности, возможна комплектация персональных устройств DEPO доверенным вариантом Numa BIOS, сертифицированным ФСТЭК России по 4 уровню доверия. Кроме этого, возможна установка программного модуля доверенной загрузки Numa Arce. Программный модуль Numa Arce соответствует уровню загрузочной записи по классификации ФСТЭК России и может применяться для защиты конфиденциальной информации в государственных информационных системах, объектах критической информационной инфраструктуры и автоматизированных системах управления технологическими процессами. В отличие от АПМДЗ, программный модуль доверенной загрузки, встроенный в микропрограммное обеспечение персонального устройства, нельзя извлечь в процессе эксплуатации устройства. Кроме этого, в Numa Arce реализованы механизмы защиты от несанкционированного отключения и блокировки модуля. Возможностью программного модуля доверенной загрузки является отсутствие необходимости выделения отдельного слота для установки аппаратной части. Это на октябрь 2020 года актуально для мобильных устройств/ультратонких ноутбуков (где нет места для размещения классических АПМДЗ) и для серверного оборудования.

Сотрудничество компаний «ДЕПО Компьютерс» и «НумаТех» на октябрь 2020 года продолжается. До конца 2020 года планируется оснащение базовой системой ввода-вывода Numa BIOS еще как минимум 3-х материнских плат ДЕПО для персональных устройств и для серверного оборудования (серверов и систем хранения данных).

В перспективе с использованием технологий и разработок «НумаТех» в области доверенной виртуализации планируется создание комплексного решения для развертывания защищенных ЦОД на базе серверного оборудования ДЕПО Компьютерс российского производства. В основе такого решения будет использоваться доверенная система серверной виртуализации Numa vServer, разработанная с учетом требований по безопасности информации и предназначенная для создания защищенной виртуальной инфраструктуры, масштабируемой вплоть до геораспределённого частного или гибридного облака.

Кроме этого, планируется разработка аппаратно-программного межсетевого экрана в виде отдельного устройства. К таким устройствам в соответствии с Требованиями ФСТЭК России предъявляются повышенные требования по безопасности. Наличие у российской компании исходных кодов ПО позволит пройти проверку и получить сертификат ФСТЭК России на разрабатываемый межсетевой экран. [1]

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *