Июнь 1993 года: CM-5/1024

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

Впервые список 500 лучших суперкомпьютеров был опубликован в июне 1993 года. На тот момент самым мощным компьютером в мире был СМ-5, расположенный в Лос-Аламосской национальной лаборатории в Калифорнийском университете. Он находился в ведении Министерства энергетики США и был изготовлен компанией Thinking Machine.

----------------------<cut>----------------------

CM-5/1024 состоял из 1024 процессоров SuperSPARC, работающих на тактовой частоте 32 МГц. Теоретическая вычислительная мощность системы составляла 131 гигафлопс, но в бенчмарке LINPACK, который использовался для получения результатов для рейтинга TOP500, фактическая производительность (59,7 гигафлопс) оказалась менее половины заявленной. По образу СМ5 был создан "мозг" комнаты управления в фильме "Парк Юрского периода" (пять черных башен с красными огнями), снятого Стивеном Спилбергом в 1993 году.

Июнь 1994 года: XP/S 140 Paragon

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В июне 1994 года СМ-5 уступил место Intel XP/S 140 Paragon. Этот суперкомпьютер был приобретен для Сандийских национальных лабораторий в Нью-Мексико. Он включал 3680 процессоров Intel i860 XP — это был один из немногих чипов с набором инструкций RISC, изготовленный Intel. Для своего времени i860 был инновационным процессором. Он имел 32-битный вычислительный модуль и 64-битный модуль для выполнения операций с плавающей запятой (FPU). Каждый процессор имел доступ к 32 32-битным регистрам, которые также могли использоваться в качестве 16 64-битных регистров или 128 8-битных регистров. Набор инструкций, исполняемый FPU, также включал инструкции типа SIMD, которые заложили основу для будущего набора команд MMX, используемого в линейке процессоров Intel Pentium.

Каждый процессора i860 XP работал на тактовой частоте 40-50 МГц и обеспечивал 0,05 гигафлопс вычислительной мощности. Теоретическая мощность компьютера XP/S 140 составляла 184 гигафлопс, но практическая (в тесте Linpack) была чуть меньше — 143,4 гигафлопс.

Ноябрь 1994 года: Япония одерживает победу. Numerical Wind Tunnel

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В ноябре 1994 года Япония обогнала США в рейтинге TOP500 с суперкомпьютером Numerical Wind Tunnel ("Цифровая аэродинамическая труба"), который компания Fujitsu изготовила для Национальной аэрокосмической лаборатории Японии.

В отличие от предыдущих самых мощных суперкомпьютеров в этой системе использовались всего 140 векторных, а не скалярных процессоров. Эти процессоры состояли из 121 отдельного ядра, собранных в матрицу 11 х 11, где каждый чип имел выделенную функцию. Каждый процессор содержал по четыре независимых канала и мог выполнять две инструкции умножения-сложения за тактовой цикл. Сам "процессор" потреблял 3000 Вт и требовал водяного охлаждения.

Эти процессоры работали при частоте 105 МГц и особенно хорошо подходили для имитации потока жидкости. Каждый процессор в теории обеспечивал 1,7 гигафлопс вычислительной мощности. Совокупная теоретическая вычислительная мощность составляла более 238 гигафлопс, и это был первый компьютер, преодолевший барьер в 200 гигафлопс, хотя его показатели в Linpack были немного ниже — сначала 124 гигафлопс, потом 170 гигафлопс и, наконец, 192 гигафлопс.

Июнь 1996 года: Hitachi обгоняет Fujitsu.SR2201/1024

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В следующем году Япония усилила свои позиции в TOP500, представив SR2201/1024. Этот суперкомпьютер был создан компанией Hitachi для Токийского университета. Новая машина обошла компьютер Numerical Wind Tunnel от Fujitsu, и Япония в итоге заняла два первых места на TOP500, опустив США на третье место.

В отличие от суперкомпьютера Numerical Wind Tunnel эта система вернулась к скалярным процессорам и использовала чипы HARP-1E, основанные на архитектуре PA-RISC 1.1. В общей сложности в SR2201/1024 было установлено 1024 процессора с тактовой частотой 150 МГц, Каждый CPU обладал теоретической вычислительной мощностью 300 MFlops, а совокупная теоретическая вычислительная мощность SR2201/1024 достигала 300 гигафлопс. HARP-1E также представил механизм псевдо векторной обработки (Pseudo Vector Processing) для предварительной загрузки данных непосредственно в регистр процессора, минуя кэш. Благодаря этой функции компьютер SR2201/1024 мог похвастаться исключительной для своего времени производительностью. В тесте Linpack SR2201/1024 достиг 232,4 гигафлопс, то есть 72% от теоретической мощности.

Июнь 1997 года: пройден порог 1 терафлопс. Accelerated Strategic Computing Initiative (ASCI) Red

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

Чтобы вернуть себе технологическое лидерство США запустили в 1992 году инициативу Accelerated Strategic Computing Initiative (ASCI). Первым успешным проектом этой программы была разработка ASCI Red — суперкомпьютера, построенного Intel для Сандийских лабораторий, в которых также находился компьютер Intel XP/S 140. ASCI Red впечатлил весь мир, поскольку первым в истории пересек барьер в один терафлопс.

7264 процессоров Pentium Pro, работающих на частоте 200 МГц, имели теоретическое значение вычислительной мощности в 1,453 терафлопса и в Linpack показывали результат в 1,068 терафлопс. ASCI Red был одним из первых суперкомпьютеров, в котором использовались компоненты массового производства. Благодаря своей модульной и масштабируемой архитектуре суперкомпьютер ASCI Red продержался в списке TOP500 восемь лет.

Июнь 1998 года: ASCI Red 1.1

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В июне 1998 года ASCI Red получил дополнительные 1888 процессоров Pentium Pro. Хотя в 1997 году он был первым в списке TOP500, тогда он был сформирован только на 75 процентов. В завершенном виде ASCI Red 1.1 в совокупности имел 9152 процессоров Pentium Pro с тактовой частотой 200 МГц и обладал теоретической вычислительной мощностью 1830 гигафлопс. В Linpack ему удалось достичь показателя в 1338 гигафлопс.

Июнь 1999 года: ASCI Red 2.0

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В 1999 году Intel обновила суперкомпьютер ASCI Red, заменив старые процессоры Pentium Pro на новые Pentium II OverDrive с интерфейсом Socket 8. В дополнение к обновленной архитектуре и более высокой тактовой частоте (333 МГц у Pentium II Overdrive против 200 МГц у Pentium Pro) Intel увеличила число процессоров с 9152 до 9472 штук. Эти усовершенствования умножили теоретическую вычислительную мощность ASCI Red в 1,7 раз, в итоге максимум составил 3,1 терафлопс. Однако на практике система смогла обеспечить только 58 процентов от теоретической производительности, показав результат в 2,121 терафлопса.

Июнь 2000 года: ASCI Red 2.1

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

После победы ASCI Red продержался в лидерах рейтинга TOP500 еще три года. В конечном итоге этот суперкомпьютер пережил еще одно увеличение количества процессорах ядер до 9632 штук. Теоретическая производительность остановилась на значении 3,207 терафлопс, а практическая (в Linpack) на отметке 2,379 терафлопс. В своей окончательной конфигурации ASCI Red занимал площадь в 230 квадратных метров и потреблял 850 киловатт энергии без учета системы охлаждения. ASCI Red находился в рейтинге TOP500 как один из самых быстрых в мире суперкомпьютеров до 2005 года и был выведен из эксплуатации в 2006 году.

Июнь 2001: ASCI White

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В конце концов, ASCI Red уступил трон суперкомпьютеру, который специально был разработан ему на замену, мы говорим об ASCI White. Новый суперкомпьютер был установлен в Ливерморской национальной лаборатории. Система начала работать вполсилы в ноябре 2000 года и была завершена в июне 2001 года.

В отличие от ASCI Red, созданного силами Intel, ASCI White дал шанс IBM показать свои возможности. ASCI White вмещал в себя 8192 процессоров IBM Power3 с тактовой частотой 375 МГц и следовал новой тенденции среди суперкомпьютеров — кластеризации. Кластерная архитектура представляет собой набор отдельных узлов соединенных вместе, которые работают как единая система. Сегодня кластеризация используется в 85 процентах суперкомпьютеров, значащихся в TOP500.

Фактически ASCI White включал 512 серверов RS/6000 SP, каждый их которых содержал по 16 процессоров. Каждый процессор обладал теоретической вычислительной мощностью 1,5 гигафлопс, ввиду чего совокупный показатель ASCI White достигал 12,3 терафлопс. Его реальная производительность была значительно ниже и достигала только 7,2 терафлопса в бенчмарке Linpack (7,3 терафлопса 2003).

ASCI White потреблял 3000 кВт мощности, и еще 3000 кВт требовала система охлаждения.

Июнь 2002: Earth Simulator

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В июне 2002 года список TOP500 пополнился суперкомпьютером Earth Simulator. Он был создан для исследовательского центра Earth Simulator Center в Иокогаме и оказался на голову выше ASCI Red и ASCI White. Система смогла реализовать 87,5% процента своей теоретической производительности на практике, показав 35,86 терафлопсов в тесте Linpack — это примерно в пять раз больше, чем показатель ASCI White. Earth Simulator был предназначен для моделирования климата и оснащался специально спроектированными суперскалярными процессорами NEC, каждый из которых имел 4-уровневый суперскалярный модуль и векторный модуль. Компоненты системы работали при тактовой частоте 500 МГц либо 1 ГГц. Каждый процессор имел теоретическую вычислительную мощность 8 гигафлопс и потреблял 140 Вт. Всего в Earth Simulator было организовано 640 узлов по 8 процессоров. Энергопотребление каждого узла суперкомпьютера составляло примерно 10 киловатт.

Июнь 2003: ASCI Q и Alpha EV6

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

Высокие показатели производительности суперкомпьютера Earth Simulator обеспечил ему лидерство в TOP500 до июня 2004 года. Между тем, конкуренты продолжали бороться за второе место в списке. В июне 2003 года "серебро" принадлежало ASCI Q. Эта система была построена компанией HP в Национальной лаборатории в Лос-Аламосе.

По плану ASCI Q включал три сегмента, каждый из которых содержал по 1024 серверов HP AlphaServer SC45. Однако в списке TOP500 указана система с двумя сегментами. Каждый сервер имел два процессора Alpha 21264 с тактовой частотой 1,25 ГГц. Общая теоретическая мощность системы составила 20,5 терафлопс, практическая в Linpack -13,9 терафлопс.

The Intruder: System X или Big Mac

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

Летом 2003 года Политехнический университет Вергинии решил собрать "недорогой" суперкомпьютер из общедоступных систем. System X (его еще называли Big Mac) состоял из 1100 работающих как одна систем Apple PowerMac G5, каждая из которых была оснащена двумя процессорами PowerPC 970 с тактовой частотой 2,3 ГГц. Строительство Big Mac заняло всего три месяца и стоило 5,2 миллиона долларов. Для сравнения Earth Simulator обошелся в 400 миллионов долларов. В ноябре 2003 года Big Mac получил третье место в рейтинге TOP500, продемонстрировав в Linpack 10,3 терафлопса вычислительной мощности. В 2004 году Big Mac был обновлен: системы PowerMac были заменены на Xserve, в результате вычислительная мощность увеличилась до 12,25 терафлопса.

Ноябрь 2004 года: Blue Gene/L

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В сентябре 2004 года Earth Simulator был окончательно повержен суперкомпьютером IBM BlueGene/L. Еще на стадии строительства он достиг 36 терафлопс. Когда в ноябре 2004 года создание компьютера было завершено, его вычислительная мощность составила 70,7 терафлопс, что в два раза больше чем у Earth Simulator. В июне 2005 года BlueGene/L был расширен и показал уже 136,8 терафлопс в тесте Linpack, то есть он обошел Earth Simulator более чем в четыре раза. BlueGene/L был тогда первым суперкомпьютером, перешедшим барьер 100 терафлопс.

Чтобы добиться такого высокого показателя IBM использовала 65536 процессоров PowerPC 440 с тактовой частотой 700 МГц. Используемые процессоры не отличались высокой производительностью, но они были компактными и потребляли относительно немного энергии, что позволило IBM установить по два чипа на одной маленькой карте (на фотографии) и подключить ее к материнской плате внутри стойки. BlueGene/L показал превосходную производительность и достиг 75 процентов от своей теоретической вычислительной мощности в Linpack.

Июнь 2006 года: BlueGene/L 2.0

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В конце 2005 года Blue Gene/L в Ливерморской национальной лаборатории удвоил число процессоров до 131072. В результате BlueGene/L 2.0 легко занял первое место в TOP500. В тесте Linpack он продемонстрировал 280,6 терафлопс. Благодаря маленьким и энергоэффективным чипам IBM конечная конфигурация BlueGene/L потребляла только 1,2 МВт мощности.

На тот момент BlueGene/L был единственным суперкомпьютером превысившим 100 терафлопс. Машина, занимавшая второе место, выдавала 91,3 терафлопс. Обратите внимание, что также в июне 2006 года французский суперкомпьютер Tera 10 занял 6-е место с показателем 42,9 терафлопс.

Июнь 2007 года: Jaguar

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

Blue Gene/L оставался самым быстрым суперкомпьютером еще два года. Хотя ни одна другая система не могла сравниться с ним по производительности, некоторые суперкомпьютеры смогли приблизиться и преодолеть отметку в 100 терафлопс. В июне 2007 года планку в 100 терафлопс перескочили Jaguar (№ 2) и Re Storm (№ 3). Jaguar, который, кстати, постоянно модернизируется с 2005 года, состоял из серверов Cray XT3 и XT4, и знаменовал вступление AMD в высшую лигу, так как в этих системах использовались двухъядерные процессоры Opteron 2,6 ГГц. В общей сложности в Jaguar работали 23016 ядер, благодаря которым он достиг 101,7 терафлопс в тесте Linpack.

Июнь 2008 года: Roadrunner

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В июне 2008 года IBM подвинула BlueGene/L системой IBM Roadrunner. Новый суперкомпьютер впервые в истории перешел порог в один петафлопс. Кроме того технологический прорыв заключался в том, что это был первый гибридный суперкомпьютер, использующий одновременно две существенно различающиеся процессорные архитектуры.

В общей сложности The Roadrunner содержал 122400 ядер в процессорах IBM и AMD. 6562 двухъядерных процессора AMD64 Opteron работали на частоте 1,8 ГГц и были способны исполнять традиционные программы на архитектуре x86. Каждое ядро Opteron работало в паре с одним ядром PowerXCell 8i 3200 с тактовой частотой 3,2 ГГц, которое состояло из 1 PPE и 8 SPE. Эти процессоры IBM были похожи на те, что использовались в консолях Xbox 360 и Playstation 3. В этой конфигурации чипы PowerXCell 8i использовались в качестве сопроцессоров для CPU Opteron с целью повышения вычислительной мощности при необходимости. Совокупная теоретическая мощность Roadrunner составляла 1,38 петафлопс. Производительность в Linpack достигала 1,03 петафлопс и обеспечила ему первое место в TOP500.

Одним из преимуществ гибридной архитектуры являлась высокая энергоэффективность. Roadrunner потреблял всего 2,35 МВт мощности и, следовательно, обеспечивал до 437 мегафлопс на ватт. Система была установлена в Лос-Аламосской лаборатории, весила 227 тонн и занимала площадь 483 м2.

Июнь 2009 года: Roadrunner

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

По аналогии с ASCI Red и BlueGene/L, Roadrunner удерживал лидерство в TOP500 в течение нескольких месяцев и модернизировался, что повышало его вычислительную мощность. В ноябре 2008 года общее количество вычислительных ядер увеличилось до 129600 штук, и производительность в Linpack подскочила до 1,1 петафлопс.

Относительно небольшого увеличения производительности оказалось достаточно, чтобы Roadrunner сохранил звание самого быстрого суперкомпьютера в мире. Второе место занимал Jaguar, использующий сервера Cray XT5 вместо старых XT3 и XT4. Его показатель в Linpack составлял 1,059 петафлопс. На то время Jaguar и Roadrunner были единственными суперкомпьютерами с вычислительной мощностью более одного петафлопса.

Июнь 2010 года: Jaguar 3.0

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В ноябре 2009 года Jaguar, наконец, удалось выбить Roadrunner с верхней позиции и стать самым быстрым суперкомпьютером в мире. Он состоял из двух блоков с серверами Cray. Старая часть вмещала 7832 сервера Cray XT4, в каждом был установлен четырехъядерный процессор Opteron 1354 Budapest с тактовой частотой 2,1 ГГц. Новый блок включал 18868 серверов Cray XT5, содержащих по два шестиядерных процессора Opteron 2435 Istanbul с тактовой частотой 2,6 ГГц.

Теоретическая мощность этого компьютера оценивалась в 2,33 петафлопс, а практическая в Linpack — 1,76 петафлопс. В отличие от Roadrunner, Jaguar не отличался низким энергопотреблением и расходовал около 7 МВт мощности (253 мегафлопс на ватт).

2010 года: в гонку вступает Китай с вычислениями на GPU. Nebulae и Tianhe-1A

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В 2010 году посоперничать за звание обладателя самого быстрого суперкомпьютера решил Китай. В июне 2010 года суперкомпьютер Nebulae имел самый высокий теоретический предел мощности в TOP500 — 2,98 петафлопс, но его реальная производительность в Linpack была ниже, чем у Jaguar. Затем, в ноябре 2010 года, появился Tianhe-1A, обогнавший Jaguar и Nebulae, как по теоретической, так и по практической вычислительной мощности.

Эта система в теории могла обеспечить до 4,7 петафлопс мощности, но в Linpack удалось получить только 2,57 петафлопс.

Tianhe-1A и Nebulae достигали высокой скорости за счет вычислений на графических процессорах. Подобно Roadrunner эти системы считаются гибридными суперкомпьютерами, поскольку сочетают процессоры x86 Intel Xeon X5600 (X5650 в Nebulae, X5670 в Tianhe-1A) с графическими процессорами NVIDIA Tesla (C2050 в Nebulae, M2050 в Tianhe-1A). Благодаря такому подходу вычисления GPGPU получили более широкое распространение.

Гибридная конфигурация китайских суперкомпьютеров продемонстрировала превосходную эффективность. Tianhe-1A потреблял только 4 МВт, обеспечивая 640 мегафлопс на ватт потребляемой мощности.

Июнь 2011 года: Fujitsu K Computer

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В июне 2011 года первенство по производительности суперкомпьютеров взяла Япония, представив Fujitsu K Computer, установленной в институте физико-химических исследований Riken.

Fujitsu K Computer является одной из немногих машин, продемонстрировавших реальную производительность относительно близкую к своему теоретическому пределу. Система состояла из 68544 восьмиядерных процессоров SPARC64 VIIIfx, имеющих в сумме 548352 физических ядра. В отличие от Tianhe-1A этот суперкомпьютер не имел в своем активе графических процессоров для вычислений GPGPU. K Computer обеспечивал 8,16 петафлопс вычислительной мощности.

Хотя K Supercomputer был значительно быстрее Tianhe-1A, он также потреблял значительно больше энергии — 9899 кВт по сравнению с 4000 кВт у Tianhe-1A. Поэтому эффективность была заметно хуже, чем у Tianhe-1A, и с добавлением дополнительных ядер (до 705024 штук) проблема не исчезла, энергопотребление возросло до 12650 кВт.

Июнь 2011 отметился еще одним знаменательным событием в рейтинге TOP500: первые десять суперкомпьютеров в мире обладали вычислительной мощностью свыше одного петафлопса.

Июнь 2012 года: Sequoia BlueGene/Q

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В июне 2012 года Sequoia BlueGene/Q стал первым суперкомпьютером, использующим более 1,5 миллиона процессорных ядер. Несмотря на огромный перевес в количестве ядер по сравнению с K Computer, его потребляемая мощность была почти вполовину меньше (7890 кВт).

Система состояла из 16-ядерных процессоров PowerPC с тактовой частотой 1,6 ГГц и являлась первым устройством, чья теоретическая вычислительная мощность превысила 20 петафлопс. На практике система достигла 16 петафлопс. Машина была установлена в национальной лаборатории, принадлежащей Департаменту энергетики США. Таким образом, Соединенные Штаты вернули себе лидирующую позицию в списке TOP500.

Ноябрь 2012 года: Cray XK7 (Titan)

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В ноябре 2012 года IBM уступила первенство суперкомпьютеру Titan на базе Cray Xk7. Эта система содержала почти 300000 процессоров Opteron 6274 и более 260000 графических процессоров NVIDIA K20x. Это был второй случай, когда суперкомпьютер с процессорами AMD занял первое место в мире. Первым был Jaguar 3.0, лидировавший в июне 2010 года.

Теоретическая вычислительная мощность Titan не превысила показатель BlueGene/Q, но реальная производительность составила 17,6 петафлопс, что выше, чем у BlueGene/Q. Вся система потребляла примерно 8209 кВт мощности и была развернута в Национальной лаборатории Ок-Ридж, принадлежащей Департаменту энергетики США.

Другим значительным событием в ноябре 2012 года стало появление Xeon Phi.

Июнь 2013 года: Tianhe-2 (MilkyWay-2)

Гонка флопсов. История эволюции лидеров из TOP 500 суперкомпьютеров.

В июне 2013 года Китай вернул себе лидерство, представив суперкомпьютер, который побил сразу несколько рекордов. Tianhe-2 превысил потолок теоретической вычислительной мощности 50 петафлопс, с показателем 54,9 петафлопс. Реальная производительность в Linpack была выше 33 петафлопс — это почти вдвое больше, чем у Cray Xk7, занявшего второе место.

Чтобы добиться такой высокой производительности в Tianhe-2 было установлено рекордное количество процессорных ядер — 3,12 миллиона. Кроме того он оказался самым прожорливым суперкомпьютером с потребляемой мощностью 17808 кВт.

Tianhe-2 установлен в Национальном университете оборонных технологий. Система оказалась неожиданностью для всех, поскольку была запущена на два года раньше планируемого срока. Каждый узел в Tianhe-2 состоит из двух 12-ядерных процессоров Xeon E5-2692 с тактовой частотой 2,2 ГГц, а также трех вычислительных карт Xeon Phi 31S1P, выполняющих большую часть работы. На сегодняшний день Tianhe-2 сохраняет звание самого быстрого суперкомьпютера в мире и занимает первое место в рейтинге TOP500.