AMD готовит “кувалду”. И не одну

ОБЗОРЫ

В следующем году на рынок будут выпущены новые 64-разрядные кристаллы Sledgehammer и Clawhammer

В начале весны появились сообщения о том, что корпорация IBM (www.ibm.com) собирается использовать микросхемы Athlon в своих двухпроцессорных серверах начального уровня. Опыт применения продукции AMD в мощных компьютерах уже имеется. Так, Sun Microsystems задействовала кристаллы K6 в недорогих серверах (подразделение Cobalt), а Compaq Computer, NEC и Micron Electronics выбрали кристаллы Athlon для своих высокопроизводительных рабочих станций и корпоративных настольных ПК.

Микропроцессоры корпорации AMD (www.amd.com) всегда пользовались спросом на рынке. Например, один из первых процессоров AMD - 80286А работал на тактовых частотах 12 и 16 МГц, но в отличие от аналогичных изделий Intel имел несколько интересных особенностей, таких, как эмуляция EMS и способность выхода из защищенного режима.

Компания AMD (www.amd.com) была основана в 1969 г., сейчас она занимает второе место по производству микропроцессоров. Можно сказать, что AMD стояла у истоков современной промышленности ПК, начав производство комплектующих для IBM PC еще в 1982 г. AMD всегда старалась наладить выпуск микропроцессоров, отсутствующих в производственной программе Intel, и это ей хорошо удавалось. Став в свое время безусловным лидером на рынке 386-х микропроцессоров, она, после перехода Intel на производство Pentium, практически добилась первенства на рынке 486-х микросхем. Заслуженной популярностью пользовались процессоры DX и SX, рассчитанные на внешнюю тактовую частоту 40 МГц. Эти изделия по производительности обычно превосходили i486DX-33 и i486SX-33 и предлагались по более низким ценам. То же самое можно сказать и о процессорах с умножением частоты, например Am486DX2-80. Производительность микросхем Enhanced Am486DX4-100/120 вплотную приближалась к Pentium-75.

В конце 1995 г. компания AMD объявила о выпуске микропроцессора Am5x86. Тактовая частота этой микросхемы составляла 133 МГц, а размер встроенной кэш-памяти с обратной записью достигал 16 Кб. Кристаллы производились с соблюдением технологических норм 0,35 мкм. В марте 1996 г. AMD начала поставки микропроцессора пятого поколения AMD K5. Микропроцессор был выполнен с соблюдением технологических норм 0,35 мкм и содержал около 4,3 млн. транзисторов. Устройство состояло из шести исполнительных блоков (один загрузки, один хранения, один предсказания ветвлений, два для целочисленных вычислений и один для вычислений с плавающей запятой), 16-килобайтовой кэш-памяти для команд и 8-килобайтовой для данных. Этот кристалл стал первым микропроцессором, самостоятельно разработанным AMD.

В октябре 1995 г. компания AMD сделала неплохое приобретение, купив фирму NexGen. Дело в том, что именно NexGen - первая компания, выпустившая Pentium-подобный процессор Nx586 с внешним сопроцессором Nx587. Уже к концу 1996 г. в AMD появился новый микропроцессор - K6. Ядро микросхемы содержало семь исполнительных блоков: два целочисленных, по одному для загрузки, сохранения, один вычислений с плавающей запятой, MMX и предсказания ветвлений. Размер кэш-памяти составлял 32 Кб для данных и 32 Кб для команд. Первые версии микропроцессора изготавливались с соблюдением технологических норм 0,35 мкм, микросхема с внутренней тактовой частотой 266 МГц производилась уже с учетом проектных норм 0,25 мкм.

В 1998 г. был анонсирован микропроцессор K6-2 с увеличенной тактовой частотой (от 266 до 550 МГц). К обычному ядру K6 добавился еще один блок операций над числами одинарной точности с плавающей запятой. Одной из отличительных особенностей нового кристалла стала также технология 3DNow!. Следующая версия микросхемы - K6-III имела кэш-память второго уровня, расположенную непосредственно на кристалле.

Рождение Athlon

Процессор Athlon с тактовыми частотами 500, 550 и 600 МГц дебютировал на рынке в августе 1999 г. Предварительное название К7 указывало на то, что AMD относит процессор к седьмому поколению своих х86-совместимых микросхем. Первоначально чипы производили с соблюдением технологических норм 0,25 мкм. Ядро следующего поколения с кодовым именем Argon на площади 124 кв. мм содержало 22 млн. транзисторов. Новые микропроцессоры использовали высокопроизводительную системную шину Alpha EV6, лицензированную у корпорации Digital Equipment. Физическим интерфейсом на системных платах стал ножевой разъем Slot A.

Микропроцессор Athlon

У шины EV6 есть два замечательных свойства. Во-первых, это не обычная общая шина, а коммутатор, который обеспечивает гарантированную пропускную способность для соединений “точка - точка”, в то время как на общей шине возможны конфликты. Во-вторых, EV6 работает на частоте 200 МГц (она может быть увеличена до 400 МГц). На самом же деле EV6 работает на частоте 100 МГц, просто передача данных по ней ведется по обоим фронтам тактового сигнала, потому фактическая частота передачи данных и составляет 200 МГц. При ширине шины 64 разряда плюс 8 разрядов (код ЕСС) ее пропускная способность - 1,6 Гб/с.

Процессор имеет девять функциональных исполнительных устройств, которые являются конвейерными. В их числе три адресных, три целочисленных и три устройства вещественной арифметики. Благодаря этому Athlon может выполнять до девяти команд за один такт. Общая длина целочисленного конвейера составляет 10 ступеней, а конвейера в устройстве вещественной арифметики - 15.

Напомним, что в современных высокопроизводительных х86-совместимых процессорах х86-команды декодируются в более простые и эффективные внутренние RISC-подобные инструкции фиксированной длины. В Athlon таких декодеров три и они работают параллельно.

Кэш-память первого уровня включает двухканальную частично ассоциативную память команд и данных емкостью по 64 Кб каждая. Это вдвое больше, чем в кристалле К6-3. Заслуживает внимания и таблица предсказания переходов размером 2048 ячеек, в ней сохраняются предыдущие результаты выполнения логических операций. На основании этих данных процессор прогнозирует результаты при их повторном выполнении. Благодаря этой технике Athlon правильно предсказывает результаты ветвлений примерно в 95% случаев. Кэш-память второго уровня составляет 512 Кб. Она расположена вне ядра кристалла, но в процессорном картридже. Работает она на половинной частоте, которой синхронизируется ядро. Теоретически размер кэш-памяти второго уровня может достигать 8 Мб.

Если в K6-3 число команд 3DNow! равно 21, то в Athlon к ним добавлены еще 24 новые команды, в том числе 12 команд для обработки видео, распознавания речи, 7 команд пересылки данных и 5 команд, ориентированных на цифровую обработку сигналов.

Впервые в Athlon инженеры AMD ввели поддержку SMP-архитектур. Кэш первого уровня имеет отдельный порт, через который проходит трафик, обусловленный поддержкой когерентности.

Athloh, но уже Thunderbird

К весне 2000 г. стало ясно, что гонка тактовых частот не оставляет Athlon никаких шансов. Даже ужесточение технологических норм до 0,18 мкм не смогло в корне переломить ситуацию. Дело в том, что быстродействие микросхем кэш-памяти весьма ограничено. С повышением тактовой частоты ядра микропроцессора до 900 МГц и выше кэш-память могла работать только на одной трети его частоты.

Новый кристалл AMD назвали почти так же, как и раньше, - AMD Athlon Processor with performance-enhancing full-speed cache memory, что означало “процессор с улучшенной по производительности кэш-памятью, работающей на полной скорости”. Название Thunderbird осталось лишь для ядра. Площадь кристалла возросла на 20% и составила 120 кв. мм. Интегрированная кэш-память второго уровня объемом 256 Кб позволила увеличить общее количество транзисторов до 37 млн. Надобность в процессорном картридже отпала. Теперь физическим интерфейсом для процессора стал разъем Socket-462 (или просто Socket A).

Одна из особенностей нового Athlon - эффективный объем кэш-памяти, равный 384 Кб (для ядра Athlon он всегда складывается из размеров кэш-памяти первого и второго уровня). Обычно часть кэш-памяти второго уровня отводится под хранение полной копии содержимого кэш-памяти первого уровня. В Athlon данные, хранящиеся в кэш-памяти первого уровня, никогда не совпадают с данными, хранящимися в кэш-памяти второго уровня. Дублируются только модифицированные строки, ожидающие записи в основную память. Соответственно результативный размер кэш-памяти для Thunderbird равен 384 Кб (128+256). К основным недостаткам нового Athlon обычно относят “узкую” 64-разрядную шину между ядром и кэш-памятью второго уровня. Например, у Coppermine она в четыре раза шире, что существенно увеличивает пропускную способность.

Что же касается микропроцессора Duron c ядром Spifire, который был предназначен для систем начального уровня, то он отличается от Athlon, по сути, только размером кэш-памяти второго уровня, которая составляет всего 64 Кб.

Новые горизонты

Как известно, микропроцессоры Athlon c тактовой частотой 1,5 ГГц обретут новое ядро под названием Palamino, а Duron (с 950 МГц) - Morgan. Однако выход версий этих кристаллов для настольных ПК задерживается до III квартала. Во II квартале AMD планирует выпустить процессор Palomino для одно- и двухпроцессорных рабочих станций и серверов. Ожидается, что у него будет увеличенный размер кэш-памяти.

AMD не впервые откладывает выпуск Palomino и Morgan. В ноябре прошлого года компания отказалась от версии Athlon для мультипроцессорных серверов с кодовым названием Mustang, сославшись на отсутствие достаточного интереса к нему у производителей ПК. Mustang строился на том же ядре, что и Palomino и Morgan. Выпуск мобильных версий Palomino и Morgan был перенесен с IV квартала на I и II 2001 г. соответственно. На выставке CeBIT 2001 Compaq Computer, Hewlett-Packard и ряд других компаний уже продемонстрировали прототипы настольных ПК на базе Palomino.

Процессоры с новым ядром будут иметь некоторые архитектурные отличия от Thunderbird. Например, ожидается улучшенный блок предсказания ветвлений и аппаратная предварительная выборка команд из памяти. Процессоры на новом ядре не будут поддерживать набор инструкций SSE2. Информация о том, что конвейер в ядре Palomino содержит большее число ступеней, пока не подтверждается. Тем не менее Palomino станет работать быстрее, чем Thunderbird на той же частоте. Основным отличием Palomino от Thunderbird считается пониженное тепловыделение, благодаря чему AMD надеется достичь тактовой частоты 2 ГГц при неизменных проектных нормах 0,18 мкм.

Новый Duron на ядре Morgan будет отличаться от Palomino не только меньшим объемом кэш-памяти второго уровня. Так как планируется процессоры Morgan выпускать на заводе в Остине, а Palomino - в Дрездене, то первое время в Mogran будут использоваться алюминиевые межсоединения, а в Palomino сразу медные. Частота системной шины для Palomino составит 266 МГц.

64 лучше, чем 32

Преимущества микропроцессоров с большей разрядностью очевидны. Они позволяют адресовать больший объем памяти, дают возможность оперировать с большим диапазоном чисел, повышают эффективность параллельных и матричных вычислений и т. д.

В отличие от своих коллег из других компаний специалисты из AMD не решились на настоящую “процессорную” революцию. Их подход к созданию 64-разрядного микропроцессора можно назвать весьма осторожным. Напомним, что, например, архитектура IA-64 основана на идеях процессоров с очень большой разрядностью команды (VLIW) и сокращенным набором инструкций (RISC). Так, VLIW позволяет за одно обращение к памяти получить упакованные в одно командное слово несколько RISC-инструкций фиксированной длины, эффективно выполняемые за один такт. Отсюда и название технологии - EPIC (Explicitly Parallel Instruction Computing) - вычисления на основе набора команд с явным параллелизмом. Набор команд другого процессора (например, x86) здесь возможно лишь эмулировать.

AMD выбрала другой очевидный путь - добавила 32 разряда к 32 уже имеющимся. Теперь регистры расширились до 64 разрядов, появились команды манипуляции с 64-разрядными данными, да и шина адреса увеличилась до 64 разрядов. В итоге родилась архитектура x86-64. Подобный процессор был назван “кувалдой” (Sledgehammer). Команды нового кристалла отличаются от команд процессоров x86 только наличием префикса, указывающего на их разрядность.

Кроме шестнадцати регистров общего назначения имеются восемь 64-разрядных регистров для операций вещественной арифметики. Первые восемь регистров “кувалды” даже обозначаются аббревиатурами, отражающими их x86-происхождение: RAX, RBX, RCX, RDX, RSP, RBP, RSI, RDI. Так, восемь младших разрядов RAX фактически эквивалентны регистру A (аккумулятору) процессора i8080 и регистру AL i8086. Разряды 8-15 эквивалентны регистру AH i8086. Объединение этих двух полей представляет регистр AX i8086. Битовое поле 0-31 - полный эквивалент регистра EAX в 32-разрядных 80x86. Дополняют архитектуру нового процессора шестнадцать 128-разрядных регистров для хранения операндов SIMD-инструкций.

Обеспечена полная аппаратная поддержка выполнения инструкций x86-32 на уровне ядра. В отличие от процессора Itanium здесь должна быть обеспечена полноценная реализация 8-, 16- и 32-разрядных приложений (а не эмуляция) без потери производительности. Таким образом, на одном процессоре смогут работать одновременно и независимо 16- и 32-разрядные приложения. Это облегчит переход пользователей на новую платформу.

Планируется выпустить две модели 64-разрядного микропроцессора: собственно Sledgehammer и младшую модель - Clawhammer. Их отличия состоят главным образом в размере кэш-памяти второго уровня. Clawhammer позиционируется как процессор для рабочих станций и будет поддерживать возможность создания двухпроцессорных систем. Причем размер кристалла не должен превысить 100 кв. мм, что сделает его в достаточной мере дешевым. Первые образцы кристаллов должны появиться в начале 2002 г.

По последним данным, для выпуска “кувалд” AMD намерена использовать технологию IBM “кремний на изоляторе” (SOI). Ожидается, что ее применение позволит увеличить производительность процессоров приблизительно на 30% и даже обогнать Itanium, причем при значительно меньшем тепловыделении.