Лекция 16: Кластеры и массивно-параллельные системы различных производителей. Современные суперкомпьютеры: Hitachi SR8000, Серия Fujitsu VPP5000, Cray T3E-1200, ASCI White
Серия Hitachi SR8000
Серия SR8000, или Супертехнический сервер, была разработана для численного моделирования сложных научно-технических задач (структурный анализ, динамика жидкости, предсказание погоды и т.п.). Серия объединяет возможности как векторного суперкомпьютера S-3000, так и параллельного компьютера SR2201.
Высокопроизводительный 64-разрядный RISC-микропроцессор разработан и создан Hitachi с использованием CMOS-технологии 0,14 микрометровой длины логических элементов. Для максимальной эффективности микропроцессоров на крупномасштабных задачах используются возможности псевдовекторной обработки. Это позволяет данным выбираться из оперативной памяти конвейерным способом без задержки сменяемых процессов. В результате данные подаются из памяти в арифметические устройства также эффективно, как в суперкомпьютере векторного типа.
Выпускаются модели SR8000 и SR8000 E1/F1/G1.
Модель | SR8000 | SR8000 E1 | SR8000 F1 | SR8000 G1 |
---|---|---|---|---|
Пиковая прозв-ть, Гфлоп | 8 | 9,6 | 12 | 14,4 |
Память | 2/4/8 | 2/4/8/16 | 2/4/8/16 | 2/4/8/16 |
Для 144-узловой конфигурации модели G1 (450 МГц) при решении полной системы линейных уравнений размерностью 141000 была достигнута скорость в 1709 Гфлоп/ (теоретически возможная - 2074 Гфлоп/с), что дало эффективность 63%. На 112-узловой модели F1 (375 МГц) достигнута скорость в 1035 Гфлоп/с из 1344 Гфлоп/с (эффективность - 77%). На отдельном узле при решении полной линейной системы и симметричной задачи на собственные значения (порядок 5000) процессорные скорости были выше 6,2 и 4,1 Гфлоп/с, соответственно.
Серия Fujitsu VPP5000
Серия VPP5000 является преемником прежних систем VPP700/VPP700E (последняя система имеет тактовый цикл 6,6 нс вместо 7 нс). Глобальные изменения в архитектуре относительно серий VPP700 малы. Тактовый цикл был уменьшен наполовину. Архитектура узлов VPP5000 почти идентична узлам VPP700. Каждый узел в системе, называемый процессорным элементом (ПЭ), является мощным векторным процессором (9,6 Гфлоп/с пиковой скорости и тактовый цикл 3,3 нс). Векторный процессор дополнен RISC-скалярным процессором с пиковой скоростью 1,2 Гфлоп/с. Формат скалярных команд имеет 64 разряда и может выполнять до 4 операций параллельно. Каждый ПЭ имеет память до 16 Гбайт и каждый ПЭ непосредственно соединяется с другими ПЭ со скоростью передачи 1,6 Гбайт/с.
VPP5000U - это однопроцессорная машина без сети и расширений передачи данных, которые требуются для VPP5000.
Скалярное устройство поддерживает RISC-архитектуру <очень длинного командного слова> (VLIW - Very Long Instruction Word), одновременно выполняя до 4 команд за один тактовый цикл. Высокая скалярная производительность достигается посредством как первого и второго кэшей, так и асинхронного выполнения обращения к памяти, команд с плавающей запятой и векторных команд.
Векторное устройство состоит из 4 конвейеров, векторного регистра и регистра маски (mask register) со скоростью векторных операций до 9,6 Гфлоп/ПЭ. Конвейер квадратного корня увеличивает производительность в операциях, включая квадратные корни. Векторные операции выполняются со скоростью 2,4 Гфлоп.
Все ПЭ соединяются через высокоскоростную сеть с поперечной коммутацией. Особое устройство связи между ПЭ, называемое DTU (Data transfer unit), делает возможным одновременное выполнение соединений между процессорами и вычисления. Это позволяет выполнять передачу и прием данных со скоростью 615 Мбайт/с в каждом направлении, в то время как ПЭ выполняют вычисления.
Система VPP5000 имеет дополнительные возможности для операций с плавающей запятой расширенной точности и непрямого доступа к памяти, возникающего в различных вычислительных алгоритмах.
Компоненты ПЭ являются высокопроизводительными энергосберегающими CMOS (complementary metal oxide semiconductor) LSI-микросхемами, произведенными по 0,22 мк технологии и содержащими до 33 миллионов транзисторов каждая, со временем вентильной задержки (gate delay time) в 24 пикосекунды. Для оперативной памяти используется 128-разрядная SDRAM (synchronous dynamic RAM) со временем произвольного доступа в 45 наносекунд.
Проведенные тесты показали, что для системы из 32-х процессоров при решении полной линейной системы порядка 170 880 скорость составила 296,1 Гфлоп/с (эффективность - 96%). Для отдельного процессора скорость в 6,04 Гфлоп/с была достигнута при решении системы порядка 2 000. При вычислении многочлена 10-го порядка была определена скорость в 8,68 Гфлоп/с (эффективность - более 90%).
Основные технические характеристики:
- год выпуска - ноябрь 1999;
- 9,6 Гфлоп векторной производительности на ПЭ;
- 1,2 Гфлоп скалярной производительности;
- масштабируется от 1 до 128 ПЭ (512 ПЭ для особого размещения) и достигает пиковой производительности 1,228 Тфлоп;
- 4, 8 или 16 Гбайт оперативной памяти SDRAM на ПЭ (максимум 2 Tбайта на систему);
- 76,8 Гбайт/с пропускная способность памяти (memory transfer bandwidth) на ПЭ;
- 64-разрядная архитектура;
- операционная система UXP/V Unix System V Release 4.
Спецификации системы VPP5000U:
- число процессоров - 1;
- теоретическая пиковая производительность - 9,6 Гфлоп.;
- оперативная память - 4-16 Гбайт;
Спецификации системы VPP5000: