RSS

Компьютерная терминология    1_9  A  B  C  D  E  F  G  H  I  J  K  L  M  N  O  P  Q  R  S  T  U  V  W  X  Y  Z  .....  A  Б  В  Г  Д  Ж  З  И  К  Л  М  Н  О  П  Р  С  Т  У  Ф  Х  Ц  Ч

Pentium 4E(A)

 
 
NT: проблемы безопасности
Windows 9x
Энциклопедия уязвимостей IE
Вопросы безопасности
Вопрос сокрытия портов
Как спрятать директории
Перехватчики паролей
Summaries,analyses,insights,and commentaries on pc security and cryptography.

 

 Бесплатная консультация специалиста
Loading…
 
Intel Pentium Extreme Edition 840

Pentium Extreme Edition 840, спецификации:

Pentium Extreme Edition
Первые двухъядерные процессоры Intel, которые компания планирует вывести на рынок, предназначаются для настольных систем и имеют кодовое имя Smithfield. Очевидно, что поскольку на сегодняшний день в распоряжении Intel нет никаких процессорных ядер для настольных компьютеров, помимо Prescott и его производных, именно это ядро и было применено при разработке Smithfield. В результате, новые двухъядерные CPU от Intel оказываются при ближайшем рассмотрении не такими уж и новыми, наследуя большинство свойств от имеющихся на рынке процессоров Pentium 4.
Фактически, процессорное ядро Smithfield, которое используется в качестве основы первых двухъядерных процессоров Intel для настольных компьютеров, представляет собой конкатенацию двух ядер Prescott ревизии E0, выполненную на одном полупроводниковом кристалле. Также, на это же кристалл помещается и арбитр, позволяющий двум CPU разделять между собой процессорную шину. То есть, фактически, всё взаимодействие между ядрами в Smithfield происходит только на уровне системной шины.

В связи с конструктивными особенностями процессора Smithfield, состоящего, по сути, из двух ядер Prescott, суммарный размер его кеш-памяти второго уровня составляет 2 Мбайта. Однако эта кеш-память разделяется пополам между двумя ядрами таким образом, что каждое из них оперирует с собственным мегабайтным L2 кешем.

L2 кеш

Smithfield наследует от Prescott весь спектр технологий, включая поддержку 64-битных расширений EM64T, технологию безопасности Execute Disable Bit, а также полный набор средств Demand Based Switching для управления тепловыделением и энергопотреблением, включающий технологии C1E, TM2 и EIST.

На базе ядра Smithfield Intel планирует выпускать два типа процессоров для настольных компьютеров: общеупотребительные Pentium D и элитные Pentium Extreme Edition.Cовместимы с данными CPU будут далеко не все материнские платы. Pentium D потребуют использования плат, основанных на современных чипсетах, поддерживающих двухъядерность, например на NVIDIA nForce4 SLI Intel Edition или на Intel 955X. В старых же материнских платах двухъядерные процессоры Intel работать не будут.

CPU Pentium D будет представлена тремя моделями: с частотами 2.8, 3.0 и 3.2 ГГц. Эти процессоры будут обозначаться процессорными номерами 820, 830 и 840 соответственно.Pentium D будут обладать поддержкой 64-битных расширений EM64T, технологии безопасности Execute Disable Bit, а также полным набором средств Demand Based Switching, однако в то же время в них будет отключена технология Hyper-Threading. То есть Pentium D, подобно привычным Pentium 4 будет представляться в операционной системе двумя процессорами.

Первая модель процессора Pentium Extreme Edition, которая маркируется процессорным номером 840, во многом подобна процессору Pentium D 840. Так Pentium Extreme Edition 840 также представляет собой двухъядерный Smithfield, работающий на частоте 3.2 ГГц. Единственное же отличие этого процессора от аналогичного Pentium D состоит лишь во включённой технологии Hyper-Threading. То есть, Pentium Extreme Edition 840 представляется в операционной системе четырьмя логическими CPU.

Линейка двухъядерных процессоров Intel для настольного сегмента:

процессор Intel

Сравнительная таблица сопоставления CPU с различными процессорами семейства Pentium 4.

Pentium 4
При создании системы, в которой планируется использование двухъядерного процессора Pentium Extreme Edition 840, особое внимание следует уделить и питанию. Помимо того, что материнская плата должна иметь качественный конвертер питания процессора, в системе должен быть установлен и мощный блок питания, поскольку энергопотребление процессоров на ядре Smithfield значительно превышает энергопотребление любых других процессоров.

  Pentium 4 с разъемом LGA775 и чипсеты Intel 925X и 915.

Intel явила миру целый спектр своих новых продуктов — шесть процессоров P4 для нового разъема LGA775 и четыре чипсета серии 925/915 с поддержкой сразу нескольких новых технологий — PCI Express, DDR2, Native Command Queuing, High Definition Audio и др.

Новые процессоры помимо использования совершенно нового разъема Socket LGA775 также впервые для настольных процессоров Intel используют систему рейтинга производительности вместо частоты и других параметров. Перечислим новые процессоры (в скобках указаны их тактовые частоты и опт. цена на момент выпуска):
Pentium 4 Extreme Edition 3,40 ГГц ($999);
Pentium 4 560 (3,60 ГГц, $637);
Pentium 4 550 (3,40 ГГц, $417);
Pentium 4 540 (3,20 ГГц, $278);
Pentium 4 530 (3,00 ГГц, $218);
Pentium 4 520 (2,80 ГГц, $178).


Как видим, лишь P4 Extreme Edition пока избежал рейтингования. Но в будущем, когда его переведут на 90-нанометровое ядро Prescott, увеличив кэш-память ядра Prescott до 2 Мбайт (возможно, это будет аналог серверного ядра, известного сейчас под кодовым именнем Potomac), он тоже не избежит этой участи, получив рейтинг 7xx. А все уже «прорейтингованные» процессоры основаны на 90-нанометровом ядре Prescott (с 1 Мбайт кэш-памяти; подробности на, тогда как новых процессоров на 0,13-микронном ядре Northwood, видимо, уже выпускаться не будет, да и использовать форм-фактор LGA775 они («Нортвуды») тоже не будут, оставив это новое поле на откуп 90-нанометровым процессорам. Все новые P4 (кроме Extreme Edition) имеют напряжение питания 1,25–1,40 вольт, выделяемая мощность (TDP) у трех младших моделей 84 ватт, у двух старших — 115 ватт (у Extreme Edition — 109,6 ватт при питании 1,525–1,6 В). Отметим также, что чуть позднее Intel выпустит линейку новых процессоров Celeron на 90-нанометровом ядре (Prescott с урезанной до 256 Кбайт кэш-памятью и возросшей до 533 МГц частотой системной шины), которые также будут иметь рейтинг (3хх).

Собственно, с процессорной точки зрения практически ничего нового в этой линейке процессоров нет — все вышеперечисленные процессоры, кроме одного, уже вышли ранее для прежнего разъема Socket 478. Правда, тогда ядро Prescott имело более ранний степпинг (C0, а теперь D0, см. скриншоты), и новый степпинг позволил производителю поднять максимальную частоту — до 3,6 ГГц.

Новый процессор имеет два ключа-выемки (на рисунке), что предотвращает его неправильную установку.

                                            LGA775_keys

Для нового разъема разработана новая конструкция (и типоразмеры) крепления кулеров. Все это делается с целью удовлетворить возросшим требованиям по электропитанию и рассеиваемой процессорами мощности (115 ватт у Prescott 3,6 ГГц, видимо, не предел). В частности, разработаны и новые кулеры (прежние непригодны как по типоразмеру, так и, как правило, по теплоотдаче). Это референсный кулер тестовой системы Intel. Очень тихий и эффективный.

NewCooler_LGA775

Референс-кулер Intel для LGA775.
Он использует хитрый высокий радиатор, отлично сбалансированный большой и тихий вентилятор...

NewCooler_LGA775_back

...и медный сердечник в основании, диаметром чуть меньше стороны квадрата верхней крышки корпуса P4.

NewCooler_LGA775_features

Новые кулеры рассчитаны на новый 4-проводный стандарт подключения к материнской плате. Кроме того, они устанавливаются на плату при помощи 4-х поворотных пластиковых пистонов.
По тестам Intel, чипсет 925X имеет (с DDR2-533) 3–7% преимущество в скорости над 875P (с DDR400).


29.02.2004              P4 2,4 ГГц на ядре Prescott

Безо всякого официального объявления америк

анская корпорация Intel начала продажи нового процессора P4 на ядре Prescott с тактовой частотой 2,40 ГГц. Новый чип получил обозначение P4 2,40А, как самые первые "четверки" на ядре Northwood c системной шиной 400 МГц. Напомним, что в начале февраля, когда были официально представлены процессоры на ядре Prescott, в это семейство вошли модели с тактовыми частотами от 2,80 до 3,40 ГГц, причем все они получили индекс "Е".

Официальной информации о новинке пока нет, но сотрудникам японского интернет-издания PC Watch удалось приобрести этот чип и изучить его характеристики. Опознать процессор P4 2,40А можно по маркировке: в третьей строчке на корпусе чипа указана тактовая частота (2,40 ГГц), объем кэш-памяти второго уровня (1 Мбайт) и частота системной шины (533 МГц).

Маркировка нового процессора индексом "А" объясняется просто: в отличие от своих старших братьев, чип 2,40А работает на системной шине 533 МГц, а не 800 МГц, и к тому же, не поддерживает технологию Hyper-Threading. По всей видимости, появление этого чипа вызвано не столько улучшением характеристик чипа с тактовой частотой 2,40 ГГц, сколько экономической целесообразностью: переход на ядро Prescott и, соответственно, на 0,09-микронную технологию, сделал просто невыгодным продолжение выпуска процессоров на старом ядре Northwood по 0,13-микронной технологии.

Характеристики процессора Pentium 4 2,40А
Характеристики процессора P4 2,40А

"Коробочная" версия нового чипа продается  ~147$ .


2 марта 2004          Socket 775: процессор без ножек

Socket 775Самая заметная особенность Socket 775 - наличие ножек вместо отверстий и металлической рамки.

Даже знакомые с компьютером люди часто восхищаются новой упаковкой процессора и сокетом. Новичок имеет 775 контактов, поэтому он называется Socket LGA775. Аббревиатура LGA означает Land Grid Array - под ней скрываются плоские контакты процессора. Ножки теперь стали частью сокета.

Изначально процессоры с сокетом LGA использовались только в серверных системах, затем число ножек процессоров в настольных системах начало стремительно расти, и появилась необходимость в новых решениях. Так что развитие LGA775 заключается в увеличенной плотности ножек и лучших электрических характеристиках. Недостаток новой упаковки - её существенно возросшая стоимость, но для огромных объёмов производства Intel это вряд ли будет заметно.

Чтобы обеспечить надёжный контакт между поверхностью процессора и сокетом, механика последнего тоже подверглась изменениям. Если рукоятка блокировки и осталась на своём месте, то теперь её основное назначение заключается в прижимании металлической рамки к процессору для улучшения контакта (см. фотографии).

Socket 775: процессор без ножек
После отжимания рукоятки (слева) вы можете открыть металлическую рамку.

Socket 775: процессор без ножек
Благодаря отсутствию ножек, с процессором можно обращаться менее деликатно. Однако при работе с сокетом следует вести себя аккуратнее, чтобы не погнуть или сломать ножки.

Socket 775: процессор без ножек
При закрытии рамки на процессор прикладывается давление с двух сторон.

Socket 775: процессор без ножек
Для закрепления процессора нужно защёлкнуть рукоятку.

Сравнение: Socket 478 и Socket 775
Сравнение: Socket 478 и Socket 775
Старый против нового: LGA775 (слева) и PGA478.

Prescott для Socket 775
Prescott для Socket 775

Внутренняя начинка нового процессора не изменилась - перед нами по-прежнему P4Prescott.Идея Intel понятна: процессоры, быстрее анонсированной недавно модели 3,4 ГГц, не будут выпускаться для Socket 478. Процессоры, работающие на частоте 3,6 ГГц и выше, потребуют новой платформы с Socket 775. С другой стороны, изначальная частота процессоров для платформы 775 будет 2,8 ГГц. В середине этого года варианты P4 Extreme Edition укрепят верхний диапазон ассортимента процессоров Intel для Socket 775.
Prescott для Socket 775
Prescott для Socket 775
Northwood для PGA478, Prescott для LGA775 и старый соперник AMD Athlon 64 на заднем плане.

Prescott против Northwood: заглядываем внутрь
Prescott против Northwood: заглядываем внутрь

Мы не смогли устоять: поскольку ядро Prescott известно своим высоким тепловыделением, мы сняли распределитель тепла у обоих процессоров. Обнаруженное нас удивило - распределитель тепла настольно жёстко прикреплён к процессору, что при его удалении мы повредили кристалл и убили процессор. Наши рекомендации пользователям: даже не пытайтесь сделать это самостоятельно.

Prescott против Northwood: заглядываем внутрь


         Разъём LGA-775 выдерживает только 20 перезарядок?
По информации ресурса The Inquire, новый процессорный разъём Intel LGA-775 выдерживает только 20 «перезарядок», т.е. если вы в 21 раз решите сменить процессор, не факт, что у вас всё заработает
Однако настораживает то обстоятельство, что в ранних неформальных беседах с некоторыми производителями уже приходилось слышать подобные сетования, так что в любом случае какая-то доля правды в заметке англичан имеется… Нам же остаётся лишь полагаться на аккуратность пользователей и быть может, на дальнейшее совершенствование самого сокета: улучшенный материал, улучшенная прочность конструкции, наконец, какие-либо собственные ноу-хау от предприимчивых производителей мат.плат.


19.02.2004 Вслед за самым первым Prescott'ом, на японский рынок Акихабара пожаловал очередной представитель этого славного семейства. Напомню, что наиболее расторопным в свое време оказался чип Pentium 4E с частотой 2.8 ГГц . Теперь же Акихабара пополнился еще одним не самым производительным изделием в лице Pentium 4 3.0E ГГц (Prescott).

Маркировка Prescott 3.0 ГГц
Маркировка Prescott 3.0 ГГц

Как и ее коллеги, новинка основана на 90 нм техпроцессе, имеет форм-фактор Socket 478, 1 МБ L2 кеша, а также поддерживает SSE3 инструкции и технологию Hyper-Threading. Стоимость прооцессора находится на уровне $245 при официальной оптовой цене в $218.


03.02.2004  Обзор архитектуры и особенностей нового Intel Pentium 4 с ядром Prescott

Вступление

Итак, несколько раз переносившийся официальный анонс нового процессора фирмы Intel, носящего кодовое имя Prescott, наконец-то произошёл. Теперь можно определённо говорить о различных нововведениях, улучшениях и решениях, примененных в этом процессоре. Что в первую очередь интересно было бы узнать из разбора архитектурных изменений, случившихся в процессорном ядре? Для начала мы составим примерное представление о производительности нового процессора, тем более, что процессоры на ядре Prescott получили наименование P4E. Intel ограничилась всего лишь добавлением суффикса, как было, например, с процессорами Northwood на шине 800 МГц с технологией HT.

Интересно прикинуть, будет ли новый процессор требовать для эффективной работы новое программное обеспечение. Сразу ли можно будет использовать его на полную мощность, или, как в случае с P4, надо будет ждать некоторое время, пока появятся написанные с учётом его особенностей приложения. Тогда для многих старых приложений, не перекомпилированных для Pentium4, довольно долго оптимальным оставалось использование PIII.

Действительно, тогда многие были напуганы плохой производительностью первых P4 в большом количестве приложений, казалось, что новый процессор медленнее старого. Однако новая архитектура P4 разрабатывалась с целью достижения больших частот и  по мере их роста всё вставало на свои места.  А ведь некоторые тогда требовали от Intel дальнейшего развития «нормальной» архитектуры PIII, которая якобы искусственно затормаживалась, поскольку PIII не получил быстрой шины, появившейся в Pentium4 и поначалу его спасавшей.

Однако, если попытаться найти некоторую логику в развитии линейки процессоров Intel, то можно настроиться на более оптимистичный лад. Действительно, рассмотрим линейку процессоров Pentium – PentiumMMX – PII - PIII. Тогда первый Pentium получил принципиально новый пятистадийный конвейер, а последовавший Pentium MMX – первый набор SIMD-расширений. В начале этот конвейер требовал для параллельной обработки специальной ручной оптимизации программ, так называемого U-V спаривания. Оно заключалось в том, что ассемблерные инструкции, могущие быть обработанными параллельно, одна на U, другая на V конвейере, вручную расставлялись в коде программы вместе, «спаривались». Это позволяло достичь двухкратного прироста производительности.

Тогда в компьютерных играх ещё использовался software-рендеринг, и основная небольшая процедура растеризации треугольника могла быть хорошо оптимизирована под U-V конвейер. Это обеспечивало процессорам Intel большое преимущество в трёхмерных играх. А процессоры AMD тогда были лучше во всяких офисных программах, там никакого трудоёмкого U-V спаривания не могло быть. В PII конвейерная обработка улучшилась, образно говоря, процессор сам стал «спаривать» инструкции для параллельной обработки, выполняя их вне порядка, установленного в программе, по мере готовности операндов и наличия свободных функциональных устройств. Это позволило очень серьёзно улучшить производительность.

Посмотрим, насколько история повторится в этот раз, поскольку оптимизация приложений под SSE2, крайне желательная для процессоров Pentium 4, не очень проста, и требует некоторых программистских усилий.

Анонс

Итак, 2 февраля 2004 произошёл массовый анонс целого ряда процессоров. Были анонсированы P4 2800E, 3000E, 3200E, и 3400E, а также новая версия P4 Extreme Edition с частотой 3400 МГц, и ещё зачем-то P4 Northwood с частотой 3400МГц. Был представлен также процессор P4 2800A, процессор с ядром Prescott, но на пониженной частоте шины и без поддержки технологии Hyper-Threading. Этот процессор появился якобы из-за того, что процессоры Prescott долгое время не хотели работать на 800МГц шине, анонс и задерживался. Запасы «старых» кристаллов скопились в большом количестве на складах, и их решено было пристроить.

Процессор

Ядро

Шина

Технология  Hyper-Threading

КЭШ третьего уровня

Разъём

Pentium4EE 3400

Northwood*

800

Да

2MB

s478

Pentium4C 3400

Northwood

800

Да

Нет

s478

Pentium4E 3400

Prescott

800

Да

Нет

s478

Pentium4E 3200

Prescott

800

Да

Нет

s478

Pentium4E 3000

Prescott

800

Да

Нет

s478

Pentium4E 2800

Prescott

800

Да

Нет

s478

Pentium4A 2800

Prescott

533

Нет

Нет

s478


Из таблицы видно, что процессоры с ядром Prescott идут вперемежку с предыдущими моделями. На текущий момент Intel не планирует более продлевать жизнь Socket 478, ограничившись моделями с частотой 3400 МГц. По слухам, некоторая кутерьма со списком плат, поддерживающих новый процессор Prescott, была вызвана именно специальными требованиями к энергопотреблению старших моделей. В итоге, низкочастотные модели не имеют особых требований к материнским платам, и должны работать практически на всех платах, поддерживающих шину 800 МГц и технологию HT. Модель 3600E, скорее всего, будет иметь уже другой конструктив, призванный обеспечить лучшее охлаждение процессоров и обслужить новые параметры энергопотребления. Таким образом, некоторые вопросы по поддержке старыми платами может вызвать только модель Pentium3400E. С другой стороны, всё равно найдётся мало желающих апгрейдить свой, например, P4 2800C на P4 3200E, потому что прирост производительности вряд ли будет очень большим.

Среди анонсированных процессоров бросается в глаза наличие обычного P4 с увеличенной до 3400 МГц частотой. Зачем он нужен, если уже есть процессор Prescott той же частоты? И тут мы подходим ко второй возможной причине переносов времени анонса. Дело в том, что производство P4E 3400 Мгц ещё не налажено так же хорошо, как производство младших моделей Prescott. И первое время обеспечить достаточно крупные поставки этих процессоров Intel, возможно, будет не в состоянии.

Prescott

Новые процессоры производятся с соблюдением норм 90-нанометрового технологического процесса, что позволило существенно увеличить количество транзисторов в ядре:

Core

Фотография обнажённой модели. Отсутствует четкая компоновка блоков - яркий пример усовершенствованной автоматической разводки внутри кристала. Любители процессорной «клубнички» могут найти ещё много высококачественных фотографий .


Какие имеются отличия старого и нового технологического процесса?

130 нанометров

90 нанометров

6 слоёв медных соединений

7 слоёв медных соединений

Диэлектрик SIOF с низким диэлектрическим коэффициентом

Диэлектрик CDO с низким диэлектрическим коэффициентом

Силицид кобальта

Силицид никеля

Ячейка памяти SRAM площадью 2 кв. мкм

Ячейка памяти SRAM площадью 1,15 кв. мкм

248-нанометровая литография

193-нанометровая литография

Обычный кремний

Растянутый кремний


Применение нового технологического процесса позволило, несмотря на увеличение количества транзисторов в кристалле, всё равно получать большее количество ядер с одной пластины, тем более что Intel переходит с 200-миллиметровых на 300-миллиметровые подложки. Однако без знания процента выхода годных кристаллов это ни о чем не говорит. А процент этот, конечно, держится в секрете.

Technology


Понятно, почему именно Intel заинтересовалась растянутым кремнием. Она делает ставку на рост частот, значит, каждый такт процессора должен становиться всё короче и короче по времени. Он может становиться настолько коротким, что электрический сигнал просто не сможет успеть дойти от одного блока процессора к другому, что будет порождать постоянные задержки в несколько тактов. Например, P4 складывает содержимое двух регистров с такой же скоростью, как и копирует их. Действительно, что есть копирование одного регистра в другой? Это зануление одного и сложение.

Однако, применение новой технологии растянутого кремния имеет свои минусы. Есть смутные слухи о том, что новые уменьшенные транзисторы имеют большой «ток утечки». Электроны получили большую подвижность благодаря растянутому кремнию, и движутся не только куда надо, но еще и куда попало, проникая через затворы транзисторов в обратном направлении, чего быть не должно. И вот это обстоятельство якобы мешает легкому наращиванию частоты.

Prescott якобы должен был стать некоторой промежуточной моделью между P4 Northwood и процессорным ядром Tejas, которое планировалось на вторую половину этого года, и должно было быть весьма навороченным: 64 бита и много чего еще. Так что жизненный цикл Prescott должен был быть ещё более коротким, чем период Willamette.

Архитектура

Глянем сначала в целом на сравнительную таблицу характеристик Northwood и Prescott.

Параметр

Northwood

Prescott

Кэш-память первого уровня

8 Кбайт

16 Кбайт

Латентность кэша L1

2 такта

>2

Ассоциативность L1

4

8

Trace cache

12Kmops

12Kmops

Trace cache delivery rate

3mops

3mops

Кэш-память второго уровня

512KB

1024KB

Латентность кэша L2

~7 тактов

~18 тактов

Ассоциативность L2

8

8

Сбрасываемая длина конвейера

20

31

Расширение набора инструкций

SSE2

SSE3

Дополнительные улучшения Prescott

Улучшенная предвыборка данных

Улучшенное предсказание ветвлений

Дополнительные буферы комбинированной отложенной записи в память

Ускорение некоторых операций с целыми числами, в том числе, умножение


Первое, что бросается в глаза - увеличившийся размер кэшей первого и второго уровня и поддержка нового набора инструкций SSE3. Размер кэшей, особенно, кэша второго уровня, очень любят указывать в прайс-листах для удовлетворения слегка продвинутых покупателей, чтобы они могли отличать различные модификации процессоров. Люди покупают не только мегагерцы, но и килобайты кэша, особенно после того, как они получили возможность сравнить производительность P4 и P4 Celeron.

Однако производительность процессора, как мы знаем, зависит от множества показателей. Вот, например, объём кэшей увеличился, но латентность-то возросла, что может быть более важным.

Prescott и иерархия кэшей

Так как размер кэшей увеличился в два раза, можно примерно представить, почему латентность кэша второго уровня серьёзно возросла.

Размер-то блоков памяти увеличился вдвое, однако расстояние до них тоже несколько возросло, и возросло время поиска данных в внутри блока из-за увеличившегося размера Какой из факторов должен перевесить – объем или время поиска? В общем случае сказать сложно, но есть несколько крайних случаев.

Если приложение работает с большим объёмом данных, много большим, чем размер кэш-памяти, и очень часто происходит случайный доступ к памяти, то увеличение кэша L2 в два раза не сильно увеличит процент попаданий в этот кэш, а возросшая латентность не сильно повлияет на производительность. В этом случае особых изменений в производительности не будет, так как она и так сильно ограничена эффективностью чтения из памяти. Но если объём используемых приложением данных сравним с объёмом кэша L2, то увеличение его объема вдвое сильно снизит процент «промахов» и сильно повысит производительность, несмотря на возросшую латентность, так как она всё равно значительно меньше латентности «обычной» оперативной памяти.

Однако, если объём используемых данных меньше размера КЭШа, данные хорошо локализуются и располагаются в памяти последовательно, то увеличение латентности приведёт к заметному падению производительности.

Таким образом, можно ожидать все три варианта изменения производительности из-за изменений характеристик кэша L2. Все зависит от приложений.

В некоторой степени похожа на ситуацию с КЭШем L2 ситуация с изменением параметров L1 КЭШа. Но если промахи в кэш второго уровня всё-таки достаточно редки, процент попаданий даже для самых «плохих» программ приближается к 99%, то объем «наличной» памяти первого уровня очень невелик, и промахи случаются регулярно, намного чаще, чем в L2: попаданий может быть всего около 75%. Так что увеличение объема L1 должно благотворно сказаться на производительности, так как его латентность всё равно меньше, чем латентность кэша L2. А 16 Кбайт существенно ближе к объёму современных структур данных, чем 8KB. Так что увеличение L1, не смотря на слегка увеличившуюся латентность, занесём скорее в плюс. Хотя и тут может быть некоторый отрицательный эффект в отдельных случаях.

Но помимо увеличения размера, возросла также ассоциативность L1 КЭШа с 4 до 8. Это усложняет КЭШ, но позволяет в некоторых случаях более оптимально его заполнить. Дело в том, что КЭШ не может содержать произвольный регион памяти, и дело здесь не в размере, а в его устройстве. Возвращаясь к нашей аналогии, представьте себе, что ранее ларёк мог содержать не более 4 продуктов одного типа, но разных производителей, а теперь целых 8.

Важно помнить, что латентность кэшей увеличилась не в секундах, а в тактах, и это сделано с целью дальнейшего наращивания частот. При росте частот абсолютное время доступа к кэш-памяти может уменьшиться до текущего значения, а потом стать ещё меньше. Таким образом, с целью наращивания частоты увеличивается не только стадийность конвейера, но и время доступа (в тактах) к кэшам. 
Прочтите следующий абзац, и вам станет понятно, зачем были увеличены объемы кэш-памяти обоих уровней.

Prescott и удлинившийся конвейер

С целью дальнейшего наращивания частоты конвейер также был «несколько» удлинён – более чем в полтора раза, с 20 до 31 ступени.

Думаю, понятно, чем плохо удлинение конвейера - при неудачно предсказанном ветвлении конвейер приходиться сбрасывать, так как он выполнял не ту работу, и чем больше стадий, тем больше штрафных тактов мы имеем в итоге. Но в Prescott обещают улучшенный блок предсказания ветвлений. Можно попробовать прикинуть, сможет ли он компенсировать «штрафы» за неправильно предсказанные ветвления. Процент предсказания естественно колеблется от программы к программе, но 90% и даже более являются типичным значением. Таким образом, если «штраф» увеличился меньше, чем на треть, то процент неправильно предсказанных ветвлений должен уменьшиться с 10 до 7,5 процентов. То есть, процент предсказания ветвлений должен возрасти с 90% до 92.5%. Казалось бы, всего ничего, он и так во многих случаях достигает 95%.

Однако, не очень правильно считать средний процент предсказания ветвлений по программе, и прикидывать, насколько его необходимо увеличить. Дело в том, что ветвления бывают случайные и регулярные. Регулярные ветвления довольно хорошо предсказываются на основе предыдущей статистики их выполнения. А случайные ветвления в принципе невозможно предсказать на основании сбора предыдущей статистики их выполнения. Вы ведь не можете предсказать, как выпадет монетка на основании просмотра её предыдущих бросков. Таким образом, в сложных программах, насыщенных случайными ветвлениями, потери от ветвлений возрастут, а в программах с регулярными ветвлениями они могут даже уменьшиться за счёт улучшенного предсказания.

Но совсем не стоит сильно расстраиваться в связи с потерями производительности при случайных условных переходах из-за многостадийного конвейера. Дело в том, что неправильно предсказанные переходы порождают лишние обращения к памяти, а задержки памяти могут составлять сотни тактов, что гораздо больше потерь из-за сброса конвейера. Процессор автоматически осуществляет загрузку в кэш данных, как только в программе будет вычислен необходимый адрес, ещё до того, как данные будут реально использоваться. Предварительная загрузка данных в раздувшийся кэш L1, кстати, должна также скрасить ухудшенную латентность L2 кэша. Неплохой новостью в этой связи будет то, что инженеры озаботились улучшением реализации алгоритмов предвыборки данных в новом процессоре.

Не стоит забывать, что процессор кэширует не только данные, но и код, и в случае правильно предсказанного перехода необходимые инструкции уже декодированы и расположены в трэйс-кэше. В противном случае может возникнуть большая задержка. Таким образом, удлинение конвейера может лишь слегка увеличить потери от случайных ветвлений, так как есть другие, не менее важные, ограничивающие производительность факторы.

Prescott и технология Hyper-Threading

По заявлениям Intel, технология HT претерпела заметные улучшения в новых процессорах. Есть несколько предпосылок для этого. Первое, но не самое важное - увеличение количества эксклюзивных ресурсов процессора для каждой нити. Например, возросло количество разнообразных буферов записи в память, в том числе, буферов комбинированной записи в некэшируемые области памяти, например, в видеопамять. Суть их состоит в том, что данные перед отправкой по, например, AGP, сначала накапливаются в специальных буферах, а потом передаются одной транзакцией, вместо нескольких, работающих с небольшими кусками данных. Это обещает небольшое увеличение производительности многонитевого приложения при работе, например, с видео.

Другое очевидное, вероятно, более важное улучшение состоит в увеличении размеров кэш-памяти всех уровней, которые призваны обеспечивать нити данными. Две нити более прожорливы, чем одна, и требуют больше данных. Так что, в некоторых случаях прирост от использования HT может быть больше на Prescott, чем на аналогичном Northwood, именно по этойпричине.

Улучшилась поддержка HT и с точки зрения набора процессорных инструкций. Появились две новые инструкции, monitor и mwait. Они делают оптимизацию программ и компонентов операционной системы под технологию HT более легкой. Собственно, применение этих инструкций позволяет эффективно организовать «засыпание» лишних потоков, чтобы они сами не задействовали один из логических процессоров для постоянной проверки флага пробуждения. Процессор эффективным образом делает это за них, отслеживая запись в указанный район памяти и пробуждая по необходимости поток.

Но, конечно, это требует перекомпиляции программ и обновления операционной системы, так что это небольшое улучшение проявит себя не сразу.

Другая причина называть новую версию технологию HT «улучшенной» состоит в том, что прирост от HT в Prescott может быть больше, чем в Northwood, за счёт  уменьшения быстродействия однопоточного варианта, нрапример, из-за увеличившейся латентности кэша. А HT будет  нивелировать это, так как во время ожидания данных инструкциями одной нити инструкции другой нити, данные для которых уже есть в регистрах или в L1, могут успешно выполняться.

Таким образом, для оптимизированных под Hyper-Threading приложений можно ожидать серьезный рост производительности.

Prescott и trace cache

Многие надеялись на подтверждение слухов об увеличении размера кэша инструкций (trace cache) с 12 Kmops до 16 Kmops в Prescott. Этот кэш содержит уже декодированные в микрооперации обычные инструкции x86, а поскольку одна микрооперация занимает несколько байт, физический размер кэша данных на 12 тысяч инструкций получается куда большим, чем 12 Кбайт. Истинный размер trace cache держится в большом секрете.

Инструкции в trace cache содержатся не в порядке их расположения в памяти, а в порядке их расположения в программе с учетом условных переходов, которые специально предсказываются. Такая организация позволяет непрерывно снабжать процессор потоком инструкций. То есть, это кэш получается умнее обычного кэша инструкций первого уровня. Представьте себе, например, что у вас в кошельке монеты уже расположены в том порядке, в котором вы будете платить за покупку.

Видно, что новых исполнительных устройств не прибавилось.


Trace cache умеет доставлять в процессорное ядро 3 инструкции за такт, там они помещаются в пул инструкций и выполняются по мере готовности функциональных устройств. Ходили слухи, что кэш инструкций Prescott будет вмещать 16 тыс. операций и уметь доставлять 4 инструкции за такт, что могло поднять производительность. Однако, так как количество функциональных устройств всякого умножения-сложения и т.п. не увеличилось, то и необходимости в увеличении скорости выдачи микроопераций особой нет - их просто некому будет обрабатывать.

Prescott и 64-битность

Ходит много слухов, о том, что в Prescott якобы уже включены и пока просто спрятаны 64-битные расширения, то ли нечто, совместимое с AMD x86-64, то ли свой собственный новый набор команд. Есть даже мнение, что Prescott якобы может понимать и исполнять в режиме некоторой эмуляции систему команд процессоров Itanium. Некоторым подтверждением этого слуха стали исследования на сайте . Там исследовали фотографии процессорного ядра, и сумели углядеть в сравнении с ядром Northwood увеличение площади, занимаемой trace cache. С учётом того, что его объём «в микрооперациях» не увеличился, можно сделать вывод об увеличении размера микрооперации «в байтах», что и требуется для 64 битного режима.

А что, в принципе, требуется для внедрения поддержки 64 бит? На самом деле, совсем не так уж много, ведь даже на примере AMD видно, что часть, отвечающая за 64битность, занимает совсем немного общей площади процессорного ядра. У процессора и так есть целая уйма внутренних регистров, гораздо больше, чем количество имён, доступных программе. Дополнительные регистры используются при переименовании регистров, что бы избежать зависимостей в командах, когда несколько команд используют один и то же регистр, но на самом деле независимы и могут выполняться параллельно. Несложно сделать эти регистры 64-битными. Регистры SSE так вообще 128-битные. Остается 64-битное умножение и сложение. Умножение в Pentium 4 выполняется в блоке FPU, у которого и так битность больше 32, а 64-битное сложение легко разбивается на два 32-битных сложения. С учётом увеличения стадий конвейера, вероятно, легко добавить одну стадию для склеивания двух 32-битных половинок при сложении на самый крайний случай. Остаётся разрядность адресов, но процессор ведь как-то может адресовать больше 4 Гбайт памяти, так что слегка переделать блок адресации не должно быть очень трудно. Тем более, что сначала больше 4 Гбайт адресовать не требуется, Athlon 64 тоже физически не все 2^64 байт может адресовать.

Таким образом, ведение 64-битных расширений в Prescott - это скорее маркетинговый, нежели технологический вопрос. Очень вероятно, что такие возможности действительно уже заложены при проектировании Prescott, и могут быть легко активированы в новой ревизии. Так что 32-битный процессор может в принципе (только в принципе, прошу заметить!) элегантным движением превратиться в 64-битный.

Prescott и автоматический дизайн ядра

При проектировании этого процессора Intel впервые использовала средства автоматизированного расположения блоков на ядре. При расположении блоков на кристалле вручную проектировщик стремился располагать вместе отдельно от других блоков схемы, отвечающие за выполнение одной функции. Это облегчало с человеческой точки зрения процесс проектирования, но не всегда было оптимально с точки зрения работы процессора. При автоматическом расположении блоки различной функциональности не обязаны располагаться далеко друг от друга, и могут хитро переплетаться, так как компьютер всё равно легко будет их различать.

Но что это дало в плане изменений в производительности? Вот Pentium 4 выполнял довольно медленно умножение целых чисел, так как оно на самом деле производилось в отдельном блоке FPU. И вот теперь блоки как-то хитро переплелись, и вполне может быть, что умножение теперь выполняется быстрее.

Prescott и SSE3

Как уже упоминалось ранее, для достижения высокой производительности для процессора P4 требовалась оптимизация программ под SSE, SSE2 или Hyper-Threading. Часто бывало, что неоптимизированная версия программы выполнялась быстрее на процессорах AMD, а оптимизированная – на процессорах intel. В новых процессорах AMD появилась поддержка набора инструкций SSE2, а поддержка SSE существовала и в AthlonXP. Но, всё равно, эти инструкции не так эффективно выполняются на Athlon - P4 делает это эффективнее.

И вот новый набор инструкций в процессорах Prescott, ранее имевший рабочее название Prescott New Instruction, и получивший в итоге не совсем верное с технической точки зрения название SSE3, призван облегчить оптимизацию программ под SSE и SSE2. Причём, в первую очередь, сделать более легкой полностью автоматическую оптимизацию программ средствами компилятора. То есть, для оптимизации необходимо будет просто перекомпилировать программу.

Почему же название SSE3 не совсем корректно? Для того, чтобы ответить на этот вопрос, необходимо понять, в чём суть всех SIMD-расширений. Они позволяют одной командой оперировать сразу несколькими парами операндов. Например, одной командой сложить 4 пары чисел, или умножить 4 пары чисел. И в SSE-регистрах данные хранятся параллельно, в одном  - 4 первых элемента каждой пары чисел, в другом - 4 вторых элемента.

Часть 4

Часть 3

Часть 2

Часть 1

Регистр

d1

c1

b1

a1

1

d2

c2

b2

a2

2

+

 

d1+d2

c1+c2

b1+b2

a1+a2

1


Но совсем не удобно тогда складывать пары чисел между собой. Например, покомпонентно сложить два четырёхмерных вектора удобно, а найти скалярное произведение – неудобно, так как необходимо будет складывать последовательно произведения пар компонентов, что не поддерживается удобным образом в SSE.

В SSE3 появились удобные команды горизонтального последовательного сложения и вычитания операндов, а также другие разнообразные вспомогательные команды, облегчающие работу с данными.

Рассмотрим потенциальные выгоды от SSE3 на примере нахождения квадрата модуля комплексного числа. Пусть все данные уже находятся в регистрах. Итак, |a+bi|2=a*a+b*b. Без использования SSE2 необходимо 3 операции, два умножения и сложение. При оптимизации под SSE2 можно удвоить производительность, вычисляя модуль сразу двух комплексных чисел одновременно.

Вторая половина регистра

Первая половина регистра

Регистр

a2

a1

1

b2

b1

2

*

 

a2*a2

a1*a1

1

*

 

b2*b2

b1*b1

2

+

 

a2*a2+b2*b2

a1*a1+b1*b1

1


Однако такая оптимизация не всегда возможна, так как не всегда приходится считать несколько модулей последовательно, часто требуется специально переписывать программу. Посмотрим, что будет при использовании SSE3.

Вторая половина регистра

Первая половина регистра

Регистр

b

a

1

*

 

b*b

a*a

1

горизонтальное сложение

 

 

a*a+b*b

1


Итак, можно обойтись всего двумя операциями, то есть, поднять производительность в полтора раза. Это меньше, чем при полной оптимизации под SSE2, но зато может быть легко осуществлено компилятором. Конечно, общий эффект по всей программе не будет таким большим, так как есть большое число других ограничивающих факторов. Но на неплохой прирост в расчётных задачах можно надеяться, при условии их перекомпиляции, конечно.

Занесём такое удобное дополнение набора SIMD-инструкций в несомненный плюс новых процессоров, который будет постепенно проявлять себя с появлением перекомпилированного программного обеспечения.

Предварительные выводы

Какие можно сделать выводы на основании обзора архитектурных новшеств процессора Prescott? Достоин ли он названия Pentium 5, какое ему прочили? Изменений в нём, конечно, меньше, чем в Pentium 4 по сравнению с Pentium III, но можно считать, что был бы достоин, если бы сразу стартовал с высоких частот. А так как на низких частотах особенно не развернешься, многие нововведения, рассчитанные на высокие частоты, сейчас выглядят сомнительно, и улучшения могут компенсироваться некоторыми недостатками.

Однако, и на современных частотах новый процессор выглядит перспективнее, за счёт наличия нового удобного расширения набора инструкций и улучшенной поддержки HT. Но, вероятно, что в тех задачах, где Northwood был не очень силён, новый процессор может также показывать себя плохо. А уж в тех задачах, которые очень критичны к латентности кэша второго уровня, но не критичны к его объёму, все может быть еще хуже Зато в некоторых приложениях удвоенный объем кэша может серьёзно поднять производительность сам по себе.

Но без тестирования всё равно затруднительно будет сказать про изменения производительности в каждом отдельно взятом приложении. К рассмотрению результатов официального тестирования мы сейчас и переходим. Собственное же тестирование процессоров Prescott мы выложим в самое ближайшее время.

Внутренние тесты Intel

Процессоров Prescott с частотой 3400 МГц ещё совсем мало, процессоры же меньшей частоты желающих тестировать не очень много. Предлагаем вам результаты внутреннего тестирования Intel. Однако, известно, что производители процессоров – плохие тестеры, так что будет относиться к ним с известной долей настороженности.

Итак, для начала сравним начальные частоты трёх ядер, производящихся с использованием разных технологических процессов: 0,18; 0,13 и 0,9 мкм.


Это может быть интересно с точки зрения проверки масштабируемости семейства P4 по частоте: получаем ли мы пропорциональный приросту частоты прирост производительности? Конфигурация тестов стандартна, только в тестовом стенде P4 1500 использовалась видеокарта Geforce 4, тогда как у более новых – Radeon 9700 Pro, а также для разных процессоров использовались компиляторы разных версий. По крайней мере, с такими условиями масштабируемость по частоте более-менее соблюдается, что мы и увидим на следующей диаграмме.

Внутренние тесты Intel


Теперь перейдём к сравнению всех трёх процессоров P4 с частотой 3400 МГц: P4 Northwood, Prescott и Extreme Edition. Последний добавили, чтобы проверить влияние увеличения объёма кэша на данный тест.


Итак, картина получается достаточно интересной. Первый тест оказывается не критичен к объёму КЭШа, все три процессора с различным объёмом КЭШа идут практически вровень. А Sysmark несколько более критичен и к объему кэша, и к его латентности, так что здесь опять равенство. 3DMark03 CPU хоть и сильно зависит от памяти, но видимо, действуют и другие негативные факторы, вроде той же латентности.

QuakeIII сильно выигрывает от увеличения объёма кэша, но, видимо, содержит, что характерно для игр, слишком много условных переходов, что всё-таки снижает производительность Prescott. Тесты Spec тоже очень любят большой кэш, так что тут Prescott хорошо себя проявляет. Но SpecInt оказывается более неудобен, так как содержит больше ветвлений, что, видимо, мешает предвыборке данных в кэш первого уровня и т.п.

Однако, в данном наборе нет приложений, не то что оптимизированных, но даже перекомпилированных под Prescott (и Spec тоже не полностью перекомпилирован), так что результаты только самые предварительные.

Итак, мы сделали первый обзор архитектуры нового ядра P4. Новый процессор получился более интересным, чем предыдущий. Архитектура NetBurst приобрела благодаря улучшению системы команд некоторую законченность. Эх, лучше бы P4 сразу таким вышел. Может так случиться, что это семейство станет на длительное время основным в производстве Intel, и это будет неплохо, тем более что с ростом частот все недостатки нового процессора испарятся.

Windows 10 | Registry Windows 10 | Windows7: Общие настройки | Windows7: Реестр | Windows7: Реестр faq | Windows7: Настроки сети | Windows7: Безопасность | Windows7: Брандмауэр | Windows7: Режим совместимости | Windows7: Пароль администратора |  |  |  |  | Память | SDRAM | DDR2 | DDR3 | Quad Band Memory (QBM) | SRAM | FeRAM | Словарь терминов | Video | nVIDIA faq | ATI faq  | Интегрированное видео faq | TV tuners faq | Терминология | Форматы графических файлов | Работа с цифровым видео(faq) | Кодеки faq | DVD faq | DigitalVideo faq | Video faq (Архив) | CPU | HDD & Flash faq | Как уберечь винчестер | HDD faq | Cable faq | SCSI адаптеры & faq | SSD | Mainboard faq | Printer & Scaner | Горячая линия бесплатной юридической консультации | Благотворительность

На главную | Cookie policy | Sitemap

 ©  2004