Что такое sandy bridge
Процессоры Intel Sandy Bridge — все секреты
Оглавление
В скобках указаны значения для Nehalem (если есть отличие).
Кэш | L0m (новый) | L1I | L1D | L2 | L3 |
Размер | 1536 мопов | 32 КБ | 256 КБ | 1–20 (2–30) МБ | |
Ассоциативность | 8 | 8 (4) | 8 | 8 | 8, 12, 16, 20 (12, 16, 24) |
Размер строки | 6 мопов | 64 байта | |||
Задержка, тактов | 3? | 4 | 4–7 (4) | 11–12 (10) | ≈26–31 (≈35–40) |
Число портов | 2 | 1 | 3 (2) | 1 | 1 на банк, 2–8 банков (2 на кэш, 1–10 банков) |
Разрядность портов | 4 мопа | 16 байт | 64 байта | 64? (32) байта | |
Частота (f — частота ядра) | f | f/2 | Максимум всех f (2,13–2,66 ГГц) | ||
Политика работы | Включающая | Включающая | |||
Свободная | |||||
Только чтение | Отложенная запись | ||||
Общий для … | Потоков ядра | Всех ядер, включая ГП |
Сразу скажем, что кэши L1I и L2 почти не изменились — у первого ассоциативность снова (как и до Nehalem) стала 8, а у второго чуть увеличилась задержка. Самое главное изменение в ядрах, касаемое кэшей, кроется в доступе к L1D, который теперь стал 3-портовым: к раздельным портам чтения и записи добавили ещё один для чтения. Кроме того, как уже было указано, в планировщике Nehalem 2-й порт вычисляет адрес чтения и исполняет само чтение, 3-й вычисляет адрес записи (только), а 4-й — исполняет саму запись. В SB же порты 2 и 3 могут и вычислить любой адрес, и исполнить чтение.
Внимательный Читатель сразу найдёт подвох: портов L1D — 3, а адресных генераторов — 2. При не более чем 16-байтовых обменах их устоявшийся максимальный темп составит 32 байта/такт (либо два чтения, либо чтение и запись). 32-байтовые операции каждым портом обслуживаются за два такта, причём вычисление адреса для конкретной команды происходит в течение первого из них. Так что для двух чтений и одной записи требуется три адреса в течение двух тактов — тогда при потоковых обменах один из трёх нужных адресов можно вычислить заранее в течение второго такта предыдущей 32-байтовой операции. Только так мы получим искомый максимум в 48 байт/такт.
Возникает довольно странный компромисс: три 16-байтовые операции за такт в потоке сделать нельзя. С другой стороны, за такт можно вычислить адреса для двух 32-байтовых обменов, но даже одно 32-байтовое чтение за такт не запустишь, потому что порты чтения не объединяются. Т. е. либо нам не будет хватать числа AGU (тех, что в портах 2 и 3), либо ширины портов, либо возможности их объединения.
Как мы знаем из теории, многопортовость в кэшах чаще всего делается не явная, а мнимая, с помощью многобанковости. Однако Nehalem нарушил это правило, внедрив 8-транзисторные битовые ячейки для всех кэшей ядра. Помимо большей экономии (об этом подробно рассказывалось в статье о микроархитектуре Intel Atom, который тоже применяет такую схему), это также даёт возможность получить истинную 2-портовость (чтение + запись), что и было использовано в L1D — никаких конфликтов по адресам в имеющихся 8 банках не было. В SB банков по-прежнему 8, а портов уже 3. Очевидно, конфликты неизбежны, но только среди адресов портов чтения.
Каждый банк L1D имеет ширину в 8 байт, вместе составляя строку, поэтому каждый из 16-байтовых портов использует 1–2 банка при выровненном доступе и 2–3 при невыровненном. Например, 8-байтовое чтение, пересекающее 8-байтовую границу, использует 2 банка, как и выровненное 16-байтовое. В SB конфликт происходит, если хоть один из банков, нужных одному чтению, также нужен и второму, причём для доступа к другой строке. Последнее означает, что если оба чтения требуют не только одинаковый(ые) банк(и), но и одинаковые номера строк в нём (них), то конфликта не будет, т. к. фактический доступ произойдёт один, и он обслужит оба обращения. В Nehalem, с его единственным чтением за такт, такого, очевидно, быть не могло.
Упомянув о невыровненном доступе, скажем и о более «грешных» делах — пересечении строки кэша, что обойдётся 5-тактным штрафом, и границы страницы виртуальной памяти (чаще всего — 4 КБ), что наказывается в среднем 24 тактами (ситуация требует сериализации конвейера). Причём последняя цифра малообъяснима, т. к. TLB, как мы увидим ниже, способны на одновременную обработку обеих смежных страниц — но даже при последовательном доступе двухзначной цифры получиться не может…
Изменений в LSU (контроллере L1D, который Intel упорно называет MOB) не меньше, чем в само́м кэше. Начнём с того, что очередь чтения удлинилась с 48 до 64 ячеек, а записи — с 32 до 36. Каждая ячейка привязана к одному мопу, а очередь записи хранит ещё и 32 байта данных (было 16). Очередь чтения хранит все команды считываний, но в каждый момент не более 32 могут обрабатываться на разных стадиях. Фактически, это отдельные диспетчер и планировщик, «ROB» которых хранит 64 мопа, а «резервация» — 32. Когда чтение завершено, моп удаляется из этой резервации, но остаётся в очереди чтения до отставки. Очередь записи хранит информацию до отставки предыдущих команд, когда ясно, что адрес, данные и сам факт исполнения команды верны, а значит её можно попытаться записать в кэш. Если попытка успешна — моп записи уходит в отставку, освобождая место и в очереди, и в ROB. При промахе или других проблемах запись задержится.
Как и все современные кэши, L1D является неблокирующим — после промаха он может принимать дальнейшие запросы одновременно с заполнением себя подгруженными данными. Кэш может выдержать даже 3 промаха/такт. Одновременно удерживается столько промахов, сколько имеется буферов заполнения. В SB, как и в его предшественнике, у L1D таковых 10, а у L2 — 16. Политика отложенной записи в L1D и L2 означает, что модифицированная строка остаётся в кэше до вытеснения, однако информация о факте её модификации (если до этого данные были «свежие») отправляется в теги соответствующей строки в L3.
Внеочерёдный доступ
Внеочерёдный движок получил любопытное дополнение: предсказание адресов, на основе которого порядок обращений в кэш может быть переставлен, делается не отдельными адресами, а целыми диапазонами — предсказывается верхнее и нижнее значения адреса, в пределах которых, как предполагается, произойдёт запись. Если точно известный адрес чтения не попадает ни в один диапазон ещё не исполненных записей — чтение можно запустить заранее. Такой вариант срабатывает чаще имевшегося ранее, который разрешал внеочерёдную загрузку, только если есть высокая вероятность несовпадения с конкретным адресом записи. Сама вероятность рассчитывается, как в предсказателе переходов — в LSU, видимо, есть некий аналог таблицы BHT со счётчиком вероятности в каждой ячейке. Когда адрес записи становится известен, счётчик увеличивается при несовпадении адресов и уменьшается при конфликте.
Однако предсказатель оперирует только выровненными на 16 байт чтениями размером до 16 байт, а также выровненными 32-байтовыми — остальные будут ждать вычисления адресов всех предыдущих записей. Ещё одна проблема нового движка в том, что он предсказывает лишь младшие 12 бит адресов: если у записи и чтения они равны (даже если они не предсказаны, а точно известны), то чтение считается зависимым от записи. Т. е. фактически предсказывается лишь 8 бит адреса — с 5-го по 12-й. Возможно, ложная зависимость обусловлена тем, что в ячейках таблицы счётчиков нет поля, хранящего старшую часть адреса.
Ясно, что STLF не может работать одновременно с внеочерёдной загрузкой: адреса записей должны быть известны точно, а не только 8 битами.
Sandy Bridge
Первый дизайн ядер на основе этой архитектуры представляет сочетание CPU с частотой до 3,5 ГГц, обладающего 2—4 ядрами и высокопроизводительного GPU с частотой до 1,35 ГГц (Intel HD Graphics 2000, для K серии — HD Graphics 3000), также в чип интегрирован северный мост набора системной логики (контроллер PCI Express 2.0 и двухканальный контроллер памяти стандарта DDR3 SDRAM с частотой до 1333 МГц). Каждое ядро имеет по 256 КБ кеша второго уровня и до 8 МБ объединенного кеша третьего уровня. Процессор, графика, кеш-память и контроллеры выполнены на единой кремниевой подложке площадью 216 мм². Энергопотребление данного дизайна не выходит за пределы 130 Вт для топовых моделей.
До конца 2011 года Intel планировал перевести процессоры всех ценовых сегментов на архитектуру Sandy Bridge.
Содержание
Нововведения
Новая микроархитектура несёт поддержку новых SIMD (инструкций для работы с векторными вычислениями Advanced Vector Extensions, AVX), которые дополнят расширения SSE (новый набор, оставаясь обратно совместимым с SSE, увеличивает разрядность рeгистров в два раза — до 256 бит, а также даёт в распоряжение программистов дополнительные трёх- и четырёхоперандные команды). При этом Intel обещает, что использование AVX будет способно поднять скорость работы некоторых алгоритмов на величину, достигающую 90 %.
Первая архитектура, в которую Intel встроил технологию Quick Sync, предназначенную для ускорения кодирования и декодирования видеоконтента. Реализована в виде специализированных аппаратных модулей в составе графического ядра.
Процессорные ядра
Технологии удаленного управления и DRM
В процессорах Sandy Bridge с функцией vPro имеется возможность удаленного управления, например удаленного блокирования ПК или стирания информации с НЖМД. Заявлено, что подобные функции полезны в случае кражи ПК. Команды могут быть переданы при помощи 3G, Ethernet, или другого подключения к сети Интернет. [5]
Структура
Структуру чипа Sandy Bridge можно условно разделить на следующие основные элементы:
Все перечисленные элементы объединены с помощью 256-битной межкомпонентной кольцевой шины, выполненной на основе новой версии технологии QPI.
Шина состоит из четырёх 32-байтных колец:
Основные преимущества кольцевой топологии шины:
Производительность кольцевой шины достигает 96 Гбайт в секунду на соединение при тактовой частоте 3 ГГц, что фактически в четыре раза превышает показатели процессоров Intel предыдущего поколения.
Процессоры
Настольные версии
Сегмент рынка | Гнездо | Ядра (Потоки) | Процессор марка и модель | ЦПУ (Тактовая частота) | Графика (Тактовая частота) | Кэш 3 уровня | TDP | Шина | Поддержка памяти | Дата выхода | цена | |||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Штатная | Турбо | Штатная | Турбо | |||||||||||
Экстрим/ Топовые | LGA 2011 | 6 (12) | Core i7 Extreme | 3970X | 3.5 ГГц | 4.0 ГГц | x | 15 МБ | 150 Вт | 6.4 GT/s QPI | До 4-х каналов DDR3-1600 | Q4’12 | $999 | |
3960X | 3.3 ГГц | 3.9 ГГц | 130 Вт | 14.11.2011 | $999 | |||||||||
Core i7 | 3930K | 3.2 ГГц | 3.8 ГГц | 12 МБ | $583 | |||||||||
4 (8) | 3820 | 3.6 ГГц | 3.9 ГГц | 10 МБ | 4.8 GT/s QPI DMI 2.0 PCIe 3.0 | 1-й кв. 2012 [7] | $294 | |||||||
Высоко- произво- дительные | LGA 1155 | 2700K | 3.5 ГГц | 850 МГц | 1350 МГц | 8 МБ | 95 Вт | DMI 2.0 PCIe 2.0 | До 2-х каналов DDR3-1333 | 24.10.2011 | $332 | |||
2600K | 3.4 ГГц | 3.8 ГГц | 9.1.2011 | $317 | ||||||||||
2600 | $294 | |||||||||||||
2600S | 2.8 ГГц | 65 Вт | $306 | |||||||||||
4 (4) | Core i5 | 2550K | 3.4 ГГц | 3.8 ГГц | x | 6 МБ | 95 Вт | 1-й кв.2012 | $235 | |||||
2500K | 3.3 ГГц | 3.7 ГГц | 850 МГц | 1100 МГц | 9.1.2011 | $216 | ||||||||
2500 | $205 | |||||||||||||
2500S | 2.7 ГГц | 65 Вт | $216 | |||||||||||
2500T | 2.3 ГГц | 3.3 ГГц | 650 МГц | 1250 МГц | 45 Вт | |||||||||
2450P | 3.2 ГГц | 3.5 ГГц | x | 95 Вт | 1-й кв.2012 | $205 | ||||||||
2400 | 3.1 ГГц | 3.4 ГГц | 850 МГц | 1100 МГц | 9.1.2011 | $184 | ||||||||
2405S | 2.5 ГГц | 3.3 ГГц | 65 Вт | 22.5.2011 | $205 | |||||||||
2400S | 9.1.2011 | $195 | ||||||||||||
2320 | 3.0 ГГц | 95 Вт | 4.9.2011 | $177 | ||||||||||
2310 | 2.9 ГГц | 3.2 ГГц | 22.5.2011 | |||||||||||
2300 | 2.8 ГГц | 3.1 ГГц | 9.1.2011 | |||||||||||
2380P | 3.1 ГГц | 3.4 ГГц | x | 1-й кв.2012 | $187 | |||||||||
Массовый | 2 (4) | 2390T | 2.7 ГГц | 3.5 ГГц | 650 МГц | 1100 МГц | 3 МБ | 35 Вт | 20.2.2011 | $195 | ||||
Core i3 | 2130 | 3.4 ГГц | x | 850 МГц | 65 Вт | 4.9.2011 | $138 | |||||||
2125 | 3.3 ГГц | $134 | ||||||||||||
2120 | 20.2.2011 | $138 | ||||||||||||
2120T | 2.6 ГГц | 650 МГц | 35 Вт | 4.9.2011 | $127 | |||||||||
2105 | 3.1 ГГц | 850 МГц | 65 Вт | 22.5.2011 | $134 | |||||||||
2102 | 2-й кв. 2011 | |||||||||||||
2100 | 20.2.2011 | $117 | ||||||||||||
2100T | 2.5 ГГц | 650 МГц | 35 Вт | $127 | ||||||||||
2 (2) | Pentium | G860 | 3.0 ГГц | 850 МГц | 65 Вт | 4.9.2011 | $86 | |||||||
G850 | 2.9 ГГц | 24.5.2011 | ||||||||||||
G840 | 2.8 ГГц | $75 | ||||||||||||
G632 | 2.7 ГГц | До 2-х каналов DDR3-1066 | 3-й кв. 2011 | |||||||||||
G630 | 4.9.2011 | $75 | ||||||||||||
G622 | 2.6 ГГц | 2-й кв. 2011 | ||||||||||||
G620 | 24.5.2011 | $64 | ||||||||||||
G630T | 2.3 ГГц | 650 МГц | 35 Вт | 4.9.2011 | $70 | |||||||||
G620T | 2.2 ГГц | 24.5.2011 | ||||||||||||
Celeron | G540 | 2.5 ГГц | 850 МГц | 1000 МГц | 2 МБ | 65 Вт | 4.9.2011 | $52 | ||||||
G530 | 2.4 GHz | $42 | ||||||||||||
G530T | 2.0 ГГц | 650 МГц | 35 Вт | $47 | ||||||||||
1 (2) | G460 | 1.8 ГГц | 1.5 МБ | 4-й кв. 2011 [8] | $37 | |||||||||
1 (1) | G440 | 1.6 ГГц | 1 МБ | 4.9.2011 | $37 |
Процессоры, продаваемые под торговой маркой Pentium имеют отключенные следующие (и довольно значимые) преимущества новой микроархитектуры (список достаточно внушителен и включает большое количество пунктов, ниже перечислены главные) [9] :
Серверные версии
Сегмент рынка | Гнездо | Ядра (Потоки) | Процессор марка и модель | ЦПУ (Тактовая частота) | Графика (Тактовая частота) | Кэш 3 уровня | Шина | Поддержка памяти | TDP | Дата выхода | Цена | |||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Штатная | Турбо | Штатная | Турбо | |||||||||||
4П Сервера | LGA 2011 | 8 (16) 6 (12) 4 (4/8) 2 (2/4) | Xeon E5 | 46xx | x | 2× QPI | До 4-х каналов DDR3-1600 | 1-й кв. 2012 | ||||||
2П Сервера | 8 (16) | 2687W | 3.1 ГГц | 20 МБ | 4x DDR3-1600 | 150 Вт | 1-й кв. 2012 | $1885 | ||||||
2690 | 2.9 ГГц | 135 Вт | $2057 | |||||||||||
2680 | 2.7 ГГц | 130 Вт | $1723 | |||||||||||
2670 | 2.6 ГГц | 115 Вт | $1552 | |||||||||||
2665 | 2.4 ГГц | $1440 | ||||||||||||
2660 | 2.2 ГГц | 95 Вт | $1329 | |||||||||||
2650 | 2.0 ГГц | $1106 | ||||||||||||
2650L | 1.8 ГГц | 70 Вт | $1106 | |||||||||||
6 (12) | 2667 | 2.9 ГГц | 15 МБ | 130 Вт | $1552 | |||||||||
2640 | 2.5 ГГц | 4x DDR3-1333 | 95 Вт | $884 | ||||||||||
2630 | 2.3 ГГц | $612 | ||||||||||||
2620 | 2.0 ГГц | $406 | ||||||||||||
2630L | 2.0 ГГц | 60 Вт | $662 | |||||||||||
4 (8) | 2643 | 3.3 ГГц | 10 МБ | 4x DDR3-1600 | 130 Вт | $884 | ||||||||
4 (4) | 2609 | 2.4 ГГц | 4x DDR3-1066 | 80 Вт | $294 | |||||||||
2603 | 1.8 ГГц | $202 | ||||||||||||
2 (4) | 2637 | 3.0 ГГц | 5 МБ | 4x DDR3-1600 | $884 | |||||||||
LGA 1356 | 8 (16) | 2470 | 2.3 ГГц | 20 МБ | 1× QPI DMI 2.0 PCIe 3.0 | До 3-х каналов DDR3-1600 | 95 Вт | 1-й кв. 2012 | $1440 | |||||
2450 | 2.1 ГГц | $1106 | ||||||||||||
2450L | 1.8 ГГц | 70 Вт | $1106 | |||||||||||
6 (12) | 2440 | 2.4 ГГц | 15 МБ | 3x DDR3-1333 | 95 Вт | $834 | ||||||||
2430 | 2.2 ГГц | $551 | ||||||||||||
2420 | 1.9 ГГц | $388 | ||||||||||||
2430L | 2.0 ГГц | 60 Вт | $662 | |||||||||||
4 (4) | 2407 | 2.2 ГГц | 10 МБ | 3x DDR3-1066 | 80 Вт | $250 | ||||||||
2403 | 1.8 ГГц | $192 | ||||||||||||
1П Сервера | LGA 2011 | 6 (12) | 1660 | 3.3 ГГц | 3.9 ГГц | 15 МБ | 2× QPI DMI 2.0 PCIe 3.0 | До 4-х каналов DDR3-1333 | 130 Вт | 4-й кв. 2011 | $1080 | |||
1650 | 3.2 ГГц | 3.8 ГГц | 12 МБ | $583 | ||||||||||
4 (8) | 1620 | 3.6 ГГц | 3.9 ГГц | 10 МБ | $294 | |||||||||
LGA 1155 | 4 (8) | Xeon-E3 | 1290 | 4.0 ГГц | 8 МБ | DMI 2.0 | До 2-х каналов DDR3-1333 | 95 Вт | 29.5.2011 | $885 | ||||
1280 | 3.5 ГГц | 3.9 ГГц | 15.3.2011 | $612 | ||||||||||
1275 | 3.4 ГГц | 3.8 ГГц | 850 МГц | 1350 МГц | $339 | |||||||||
1270 | x | 80 Вт | $328 | |||||||||||
1260L | 2.4 ГГц | 3.3 ГГц | 650 МГц | 1250 МГц | 45 Вт | $294 | ||||||||
1245 | 3.3 ГГц | 3.7 ГГц | 850 МГц | 1350 МГц | 95 Вт | $262 | ||||||||
1240 | x | 80 Вт | $250 | |||||||||||
1235 | 3.2 ГГц | 3.6 ГГц | 850 МГц | 1350 МГц | 95 Вт | $240 | ||||||||
1230 | x | 80 Вт | ||||||||||||
4 (4) | 1225 | 3.1 ГГц | 3.4 ГГц | 850 МГц | 1350 МГц | 6 МБ | 95 Вт | $194 | ||||||
1220 | x | 8 МБ | 80 Вт | $189 | ||||||||||
2 (4) | 1220L | 2.2 ГГц | 3 МБ | 20 Вт |
Мобильные версии
Intel Sandy Bridge: в новый год с новой процессорной микроархитектурой
Мы открываем цикл статей про новую процессорную микроархитектуру Intel Sandy Bridge. В первом материале мы коснемся теории ― расскажем про изменения и нововведения. В недалеком будущем на страницах блогов появятся результаты тестов новой платформы и много чего интересного.
Придуманная в недрах Intel концепция Tick-Tock продолжает работать ― каждый год производитель представляет измененную процессорную микроархитектуру. Фаза «Tick» подразумевает совершенствование предыдущих наработок (уменьшение техпроцесса, внедрение не слишком революционных новых технологий и так далее). Примерно через год после «Tick» случается «Tock» ― релиз процессоров на основе полностью новой микроархитектуры.
В начале 2010 года Intel представила линейку чипов под кодовым именем Westmere/Clarkdale ― технологическое совершенствование самых первых моделей Core i3/i5/i7 (Nehalem). Настала очередь Tock. Встречайте революционную микроархитектуру Sandy Bridge, на основе которой построены процессоры под общим названием Core 2011 ― полностью новые модели Core i3, Core i5, Core i7, а также бюджетные модели Pentium и Celeron.
На этот раз производитель решил не мелочиться и сходу анонсировал множество моделей для мобильных и настольных компьютеров во всех ценовых диапазонов. Правда, в продажу поступили лишь некоторые, далеко не самые доступные версии, но об этом чуть позже.
Пресса называет Sandy Bridge одной из самых существенных микроархитектур Intel за последние годы ― производитель сделал все возможное, чтобы вывести свои процессоры на новый уровень производительности, довел до ума представленные ранее технологии, предложил невероятную интеграцию вычислительных блоков и контроллеров. По сравнению с Sandy Bridge представленные ранее модели кажутся детским лепетом. Давайте рассмотрим изменения Core 2011 более подробно.
Особенности новой микроархитектуры
Блок-схема, изображающая микроархитектуру Sandy Bridge, вряд ли расскажет много о внедренных технологиях и общих изменениях. Однако стоит знать, что все компоненты новых процессоров существенно отличаются от компонентов тех же Westmere/Clarkdale. Главное, что нужно понимать перед изучением особенностей Sandy Bridge ― архитектурные доработки позволяют новым процессорам работать на 10-50% быстрее по сравнению с поколением Core 2010.
Инженеры Intel переработали блок предсказывания ветвлений, изменили препроцессор, внедрили продвинутый декодированный кэш, скоростную кольцевую шину, блок продвинутых векторных расширений AVX, переработали интегрированный контроллер оперативной памяти и линки с шиной PCI Express, изменили интегрированный графический чип до неузнаваемости, ввели фиксированный блок для аппаратного ускорения транскодирования видео, довели до ума технологию авторазгона Turbo Boost и так далее. Теперь вы, вероятно, поверили в то, что изменений действительно очень и очень много? Мы попробуем вкратце пробежаться по каждому из них, чтобы составить определенную картину перед тем, как в наших блогах появится полноценное тестирование.
Для начала, 4-ядерные модели Sandy Bridge состоят из 995 миллионов транзисторов, произведенных по отлаженному 32-нанометровому техпроцессу. Около 114 миллионов отведено под нужды графического чипа, каждое ядро занимает по 55 миллионов транзисторов, остальное уходит под дополнительные контроллеры. Для сравнения, полноценный 4-ядерный процессор AMD Phenom II X4 содержит 758 миллионов транзисторов, а 4-ядерные Nehalem использовали 731 миллион транзисторов. При всем при этом, полноценный процессорный кристалл Sandy Bridge занимает площадь 216 квадратных миллиметров ― кристалл одного из первых 4-ядерных процессоров Intel (Core 2 Quad) занимал аналогичную площадь при намного меньшем числе транзисторов и, соответственно, предлагал несоизмеримо меньшую производительность.
Теперь, позвольте рассказать о ключевых нововведениях микроархитектуры по порядку.
Кэш декодированных инструкций (micro-op cache) ― представленный в Sandy Bridge механизм micro-op cache сохраняет инструкции по мере их декодирования. При выполнении расчетов процессор определяет, попадала ли очередная инструкция в кэш. Если да, то препроцессор и вычислительный конвейер обесточиваются, что позволяет экономить электроэнергию. При этом 1,5 Кб декодированной кэш-памяти полностью интегрированы с кэшем первого уровня (L1).
Переработанный блок предсказания ветвлений может похвастаться увеличенной точностью работы. Все это стало возможным благодаря нескольким существенным инновациям в дизайне.
Кольцевая шина ― для объединения многочисленных архитектурных блоков в процессорах Sandy Bridge используется продвинутая и очень скоростная кольцевая шина. Своим появлением интерфейс обязан интегрированному графическому ядру и транскодеру видео ― необходимость общаться с кэшем третьего уровня сделала предыдущую схему соединения (около 1000 контактов для каждого ядра) неэффективной. К переработанной шине подключены все важные компоненты процессора ― графика, х86-совместимые ядра, транскодер, Системный Агент, кэш-память L3.
Под названием «Системный Агент» (System Agent) скрывается блок, ранее известный, как un-core ― здесь объединены контроллеры, которые раньше были вынесены в северный мост на материнской плате. В состав агента входят 16 линков для соединения с шиной PCI Express 2.0, двухканальный контроллер оперативной памяти DDR3, интерфейс для соединения с общей системной шиной DMI, блок управления питанием и графический блок, ответственный за вывод картинки.
Одним из самых важных нововведений Sandy Bridge принято считать переработанный с нуля графический чип. Начнем с того, что теперь графика интегрирована с другими блоками в едином кристалле (ранее под металлической крышкой процессоров Clarkdale скрывалось два разрозненных чипа). Инженеры Intel хвастаются двойным увеличением пропускной способности компонентов графического чипа по сравнению с предыдущим поколением Intel HD Graphics благодаря изменению архитектуры унифицированных шейдерных процессоров, появлению доступа к кэш-памяти L3 и другим улучшениям. При этом в новых процессорах можно будет обнаружить сразу две существенно отличающиеся модели графического ядра ― HD Graphics 2000 и HD Graphics 3000. Первая предлагает шесть унифицированных шейдерных процессоров, вторая ― двенадцать. По заявлениям Intel и профильной прессы, новая графика делает самые дешевые дискретные видеокарты излишними, но в этом нам еще предстоит убедиться в рамках отдельного обзора. Чуть не забыли сказать, новые модели HD Graphics поддерживают DirectX 10, переход к более современным графическим технологиям состоится уже в следующих поколениях процессоров.
Кроме того, в новом графическом чипе предусмотрен отдельный блок Media Engine, состоящий из двух частей для транскодирования и декодирования видео. Инженеры Intel решили не испытывать судьбу ― раньше декодированием и кодированием видео занимались унифицированные шейдерные процессоры и, частично, маломощные фиксированные блоки. По словам очевидцев, фиксированный Media Engine справляется со своей задачей быстрее и качественнее, чем даже монструозные видеокарты высшего ценового диапазона.
Измененные алгоритмы авторазгона Turbo Boost теперь позволяют процессору слегка переваливать за нормы прописанного энергопотребления на короткое время ― на практике это означает, что процессор сможет совершать скоростные забеги на малые дистанции. Разумеется, автоматика не даст перейти рубеж надежности. Напомним, Turbo Boost автоматически увеличивает частоту одного, двух, трех или четырех ядер при необходимости. Так, самая мощная модель Intel Core i7 2600 умеет увеличивать частоту одного ядра до 3,8 ГГц при работе с неоптимизированными под многоядерную архитектуру приложениями.
Со времен Pentium II компания Intel начала продавать процессоры с заблокированными множителями, чтобы пользователи не могли играть с частотой, а сама компания всегда имела возможность продавать одни и те же модели в разных ценовых диапазонах. Но оверклокеры всегда имели возможность регулировать частоту FSB. К сожалению, с приходом Sandy Bridge все снова меняется ― множитель в большинстве моделей наглухо заблокирован, а генератор частоты шины интегрирован в единственный мост чипсетов 6-й серии и заблокирован на частоте 100 МГц.
Единственной оверклокерской отдушиной остаются модификации с разблокированными множителями ― таких моделей в новой линейке немного, но они есть и стоят вполне адекватных денег.
Линейка
Настало время рассказать о процессорах, которые были представлены в первую очередь ― разобраться в новых названиях и понять, какой именно процессор стоит выбрать для своих целей.
Во время релиза Sandy Bridge компания Intel представила 29 (двадцать девять!) новых моделей Core iX ― четырнадцать для настольных и пятнадцать для мобильных компьютеров.
Производитель перешел на новую, еще более замутненную схему обозначениях процессоров, в которой и предстоит покопаться.
Итак, название каждого нового процессора настольной линейки состоит из обозначения бренда (Intel Core), названия конкретной линейки (i3, i5, i7), индекса (2600) и суффикса (K). Для настольной линейки предусмотрено всего три суффикса ― К (разблокированный множитель), S (энергопотребление 65 Вт) и T (энергопотребление 34-45 Вт). Теперь, самое странное ― мощный графический чип HD Graphics 3000 входит только в состав моделей с разблокированным множителем (К), остальные процессоры довольствуются заметно более слабым HD Graphics 2000.
Изначальная линейка Core 2011 для настольных компьютеров достаточно красиво разбивается по названию линейки. Так, процессоры Core i7 ― это четырехъядерные чипы с поддержкой Hyper Threading (4 ядра, 8 потоков), Core i3 ― простенькие двухъядерные чипы без поддержки Turbo Boost, но с поддержкой Hyper Threading (2 ядра, 4 потока), Core i5 ― в первую очередь четырехъядерные модели с поддержкой Turbo Boost, но без Hyper Threading. К сожалению, в будущем в рамках линейки Core i5 появятся и двухъядерные модели, однако они будут доступны в первую очередь для сборщиков готовых систем.
Еще один повод для дальнейшей дифференциации линейки ― авторазгон встроенного графического ядра. Изначально обе модели графики работают на частоте 850 МГц, однако процессоры Core i5 и Core i3 могут разгонять его до частоты 1100 МГц. Старшие Core i7 ― до 1350 МГц. Подумайте сами, каким образом подобное скажется на конечной производительности.
С мобильными модификациями Sandy Bridge все немного сложнее. Для начала, абсолютно все мобильные процессоры в новой линейке задействуют мощный графический чип HD Graphics 3000 (даже самые экономичные модели). По непонятным причинам компания Intel решила нарушить негласный закон маркетинга и разгуляться в индексах ― как мы будем разбираться в моделях с индексами 2657, 2537, 2410 и 2720 мы пока не решили. С точки зрения индексов здесь есть обозначения XM, QM, M, указывающие на ноутбуки для разных задач. Соответственно, ХМ ― это экстремальные модели для геймерских систем, М ― двухъядерные процессоры для экономичных ноутбуков, QM ― четырехъядерные процессоры для мэйнстримовых ноутбуков.
Разумеется, это далеко не все модели на ближайший год ― Intel продолжит экспериментировать и будет изредка радовать поклонников новыми модификациями. Главное, чтобы не нарушали придуманную собственными силами логику линеек.
Платформа
Вместе с Sandy Bridge были представлены чипсеты 6-й серии с необходимым процессорным разъемом LGA1155 ― первыми ласточками стали Intel P67 и Intel H67. Разобраться в двух модификациях проще простого. Intel P67 подходит для конфигураций, где будет использоваться дискретная видеокарта, при этом платформа поддерживает средства разгона. Плюс, платы на основе P67 предлагают 2х8 линий PCI Express 2.0 для конфигураций с несколькими видеокартами в режима AMD CrossFire или NVIDIA SLI. Intel H67, напротив, малопригодна для разгона, поддерживает только один порт PCI Express x16, зато умеет выводить видеосигнал.
Всем тем, кто мечтает получить все возможности на одной плате, придется немного подождать ― где-то во втором квартале 2011 года разработчики представят чипсет Intel Z68. Материнки на основе этого чипсета будут поддерживать встроенное в процессор графическое ядро, а также все особенности Intel P67.
Пару слов о новом процессорном разъеме ― Intel переделала схематику и структуру гнезда, так что старые модели Core 2010 для LGA 1156 использовать уже не получится. К счастью, размер сокета остался прежним, сюда можно установить многочисленные кулеры для LGA 1156 и не мучиться с поиском самых новых моделей.
В чипсетах все еще не появилась врожденная поддержка интерфейса USB 3.0, хотя рынок, вроде бы, вполне готов к подобным «инновациям». Поклонникам всего самого лучше придется ориентироваться на продвинутые материнские платы, куда производители встраивают сторонние контроллеры USB 3.0.
Благо, про новую версию интерфейса SATA компания Intel не забыла ― новые платформы поддерживают SATA3 с пропускной способностью до 6 Гбит/с. Понятно, что для классических шпиндельных винчестеров все эти скоростные прибавки не нужно, но накопители на основе флэш-памяти оценят скоростное окно по достоинству. К примеру, один из представленных на выставке CES флэш-винчестер раскроет свои скоростные способности только в паре с SATA3 ― в рамках SATA2 ему тесно (речь о Crucial RealSSD C300). Что важно, порты SATA3 на новых материнских платах соседствуют с SATA2, хотя новый интерфейс и предлагает полную обратную совместимость с предыдущим поколением ― при подключении своего супер-дорогого SSD будьте внимательнее.
В новых чипсетах производители наконец-то начинают избавляться от главного архаизма ― интерфейса BIOS. На замену топорному синему экрану из прошлого приходит UEFI ― новая оболочка поддерживает управление мышью (или тачпадом), предлагает заметно более современный и удобный интерфейс. Из других особенностей UEFI можно отметить врожденную поддержку жестких дисков объемом свыше 2,2 Тб.
Что мы имеем в итоге?
Среди экспертов распространено мнение, что Sandy Bridge ― это всего лишь эволюция предыдущих микроархитектур и ничего кардинально нового компания не представила. Мы же сходимся во мнении с другой частью аналитиков. Несмотря на то, что новая линейка не предлагает по-настоящему революционных возможностей, проделанная компанией Intel работа достойна всяческих похвал. Производитель довел все свои начинания до идеала ― провел полную интеграцию всех компонентов, улучшил графический чип до приемлемого уровня, доделал кольцевую шину, переработал функции препроцессора, пересмотрел возможности авторазгона Turbo Boost, внедрил фиксированный блок для обработки видео и так далее. В итоге перед нами совершенно новые процессоры, которые на голову опережают предыдущие поколения с точки зрения технических характеристик.
Дальше нам предстоит убедиться в том, что реальная производительность новых моделей не отстает от того, что мы видим на бумаге.
В скорейшем будущем в блогах DNS появится тестирование нового процессора в играх и популярных программах, обзор возможностей разгона с использованием воздушного охлаждения, тест графического чипа против бюджетных дискретных видеокарт. Не пропустите.