Опубликован: 15.09.2004 | Доступ: свободный | Студентов: 3954 / 1492 | Оценка: 4.31 / 4.05 | Длительность: 09:26:00
ISBN: 978-5-9556-0018-5
Специальности: Разработчик аппаратуры

Лекция 16: Кластеры и массивно-параллельные системы различных производителей. Современные суперкомпьютеры: Hitachi SR8000, Серия Fujitsu VPP5000, Cray T3E-1200, ASCI White

< Лекция 15 || Лекция 16: 123
Аннотация: В данной лекции приводятся характеристики четырех современных суперкомпьютерных систем, созданных крупнейшими мировыми компаниями: Hitachi, IBM, Cray Inc. и Fujitsu. Рассматриваются системы с векторно-параллельной, псевдовекторной, кластерной и массивно-параллельной архитектурами.
Ключевые слова: Hitachi SR8000, сервер, анализ, микропроцессор, CMOS, HIPPI, fibre channel, Fujitsu VPP5000, архитектура, векторный процессор, память, VLIW, very, long, Instruction, word, производительность, Register, векторные, операции, сеть, Data, transfer unit, прием данных, complementary, metallization, semiconductor, LSI, gate, delay time, SDRAM, dynamic ram, технические характеристики, пропускная способность шины, система Cray T3E, масштабируемая параллельная система, DRAM, время выполнения, процессорный элемент, процессор, связь, маршрутизация, пропускная способность, операционная система, управление процессами, система управления файлами, PVM, HPFS, craft, scattered, программа ASCI, LOS, ASCI, IBM, суперкомпьютер, blue, ASCI White, SP, SMP, GPF, магистраль, ядро, мультипроцессор, коммутационная сеть, файловая система, general, file system, Unix, совместный доступ к файлу, запись, secure, Computing, facility, performance, storage system, MPI, AIX, поддержка, профилировщик, POSIX, транслятор

Серия Hitachi SR8000

Серия SR8000, или Супертехнический сервер, была разработана для численного моделирования сложных научно-технических задач (структурный анализ, динамика жидкости, предсказание погоды и т.п.). Серия объединяет возможности как векторного суперкомпьютера S-3000, так и параллельного компьютера SR2201.

SR8000

Рис. 16.1. SR8000

Высокопроизводительный 64-разрядный RISC-микропроцессор разработан и создан Hitachi с использованием CMOS-технологии 0,14 микрометровой длины логических элементов. Для максимальной эффективности микропроцессоров на крупномасштабных задачах используются возможности псевдовекторной обработки. Это позволяет данным выбираться из оперативной памяти конвейерным способом без задержки сменяемых процессов. В результате данные подаются из памяти в арифметические устройства также эффективно, как в суперкомпьютере векторного типа.

Выпускаются модели SR8000 и SR8000 E1/F1/G1.

Таблица 16.1. Конфигурация узла
Модель SR8000 SR8000 E1 SR8000 F1 SR8000 G1
Пиковая прозв-ть, Гфлоп 8 9,6 12 14,4
Память 2/4/8 2/4/8/16 2/4/8/16 2/4/8/16

Для 144-узловой конфигурации модели G1 (450 МГц) при решении полной системы линейных уравнений размерностью 141000 была достигнута скорость в 1709 Гфлоп/ (теоретически возможная - 2074 Гфлоп/с), что дало эффективность 63%. На 112-узловой модели F1 (375 МГц) достигнута скорость в 1035 Гфлоп/с из 1344 Гфлоп/с (эффективность - 77%). На отдельном узле при решении полной линейной системы и симметричной задачи на собственные значения (порядок 5000) процессорные скорости были выше 6,2 и 4,1 Гфлоп/с, соответственно.

Таблица 16.2. Конфигурация системы
Число узлов 4 8 16 32 64 128 256 512
Произв-ть, Гфлоп SR8000 32 64 128 256 512 1024 - -
SR8000 E1 38,4 76,8 153,6 307,2 614,4 1228,8 2457,6 4915,2
SR8000 F1 48 96 192 384 768 1536 3072 6144
SR8000 G1 57,6 115,2 230,4 460,8 921,6 1843,2 3686,4 7372,8
Максимальный объем общей памяти, Гбайт SR8000 E1/F1/G1 64 128 256 512 1024 2048 4096 8192
Внешний интерфейс Ultra SCSI, Ethernet/Fast Ethernet, Gigabit Ethernet, ATM, HIPPI, Fibre Channel

Серия Fujitsu VPP5000

Серия VPP5000 является преемником прежних систем VPP700/VPP700E (последняя система имеет тактовый цикл 6,6 нс вместо 7 нс). Глобальные изменения в архитектуре относительно серий VPP700 малы. Тактовый цикл был уменьшен наполовину. Архитектура узлов VPP5000 почти идентична узлам VPP700. Каждый узел в системе, называемый процессорным элементом (ПЭ), является мощным векторным процессором (9,6 Гфлоп/с пиковой скорости и тактовый цикл 3,3 нс). Векторный процессор дополнен RISC-скалярным процессором с пиковой скоростью 1,2 Гфлоп/с. Формат скалярных команд имеет 64 разряда и может выполнять до 4 операций параллельно. Каждый ПЭ имеет память до 16 Гбайт и каждый ПЭ непосредственно соединяется с другими ПЭ со скоростью передачи 1,6 Гбайт/с.

Система VPP5000

Рис. 16.2. Система VPP5000

VPP5000U - это однопроцессорная машина без сети и расширений передачи данных, которые требуются для VPP5000.

Скалярное устройство поддерживает RISC-архитектуру <очень длинного командного слова> (VLIW - Very Long Instruction Word), одновременно выполняя до 4 команд за один тактовый цикл. Высокая скалярная производительность достигается посредством как первого и второго кэшей, так и асинхронного выполнения обращения к памяти, команд с плавающей запятой и векторных команд.

Векторное устройство состоит из 4 конвейеров, векторного регистра и регистра маски (mask register) со скоростью векторных операций до 9,6 Гфлоп/ПЭ. Конвейер квадратного корня увеличивает производительность в операциях, включая квадратные корни. Векторные операции выполняются со скоростью 2,4 Гфлоп.

Все ПЭ соединяются через высокоскоростную сеть с поперечной коммутацией. Особое устройство связи между ПЭ, называемое DTU (Data transfer unit), делает возможным одновременное выполнение соединений между процессорами и вычисления. Это позволяет выполнять передачу и прием данных со скоростью 615 Мбайт/с в каждом направлении, в то время как ПЭ выполняют вычисления.

Система VPP5000 имеет дополнительные возможности для операций с плавающей запятой расширенной точности и непрямого доступа к памяти, возникающего в различных вычислительных алгоритмах.

Компоненты ПЭ являются высокопроизводительными энергосберегающими CMOS (complementary metal oxide semiconductor) LSI-микросхемами, произведенными по 0,22 мк технологии и содержащими до 33 миллионов транзисторов каждая, со временем вентильной задержки (gate delay time) в 24 пикосекунды. Для оперативной памяти используется 128-разрядная SDRAM (synchronous dynamic RAM) со временем произвольного доступа в 45 наносекунд.

Проведенные тесты показали, что для системы из 32-х процессоров при решении полной линейной системы порядка 170 880 скорость составила 296,1 Гфлоп/с (эффективность - 96%). Для отдельного процессора скорость в 6,04 Гфлоп/с была достигнута при решении системы порядка 2 000. При вычислении многочлена 10-го порядка была определена скорость в 8,68 Гфлоп/с (эффективность - более 90%).

Основные технические характеристики:

  • год выпуска - ноябрь 1999;
  • 9,6 Гфлоп векторной производительности на ПЭ;
  • 1,2 Гфлоп скалярной производительности;
  • масштабируется от 1 до 128 ПЭ (512 ПЭ для особого размещения) и достигает пиковой производительности 1,228 Тфлоп;
  • 4, 8 или 16 Гбайт оперативной памяти SDRAM на ПЭ (максимум 2 Tбайта на систему);
  • 76,8 Гбайт/с пропускная способность памяти (memory transfer bandwidth) на ПЭ;
  • 64-разрядная архитектура;
  • операционная система UXP/V Unix System V Release 4.

Спецификации системы VPP5000U:

  • число процессоров - 1;
  • теоретическая пиковая производительность - 9,6 Гфлоп.;
  • оперативная память - 4-16 Гбайт;

Спецификации системы VPP5000:

  • число процессоров - от 4 до 128 (512 ПЭ для особого размещения);
  • теоретическая пиковая производительность - от 38,4 Гфлоп до 1,229 Тфлоп (4,915 Тфлоп для 512 ПЭ);
  • оперативная память - от 16 Гбайт до 2 048 Тбайт (8 192 Тбайт для 512 ПЭ);
  • пропускная способность шины - 1,6 Гбайт/с/ПЭ.
< Лекция 15 || Лекция 16: 123