Память HBM2 – ускоренный обмен данных с применением продуктов Xilinx Alveo
Новая эпоха в сфере обмена данными
Подсистемы памяти часто является самым узким местом по скорости при проектировании аппаратуры с интенсивными потоками пересылаемых данных. Но благодаря появлению двух новых устройств в линейке ускорительных карт Alveo™ от Xilinx (модели Alveo U50 и Alveo U280) с интегрированной широкополосной памятью второго поколения (HBM2), нам удалось устранить это узкое место. Память типа HBM2 представляет собой динамическую память, изготовленную в виде отдельных чипов, монтируемых в виде стека (одна микросхема над другой) внутри микросхемы FPGA. Такой подход способствует снижению энергопотребления и сокращению площади печатной платы. В то же время память HBM2 обеспечивает невероятную пропускную способность – 460 Гбайт/с. Такой пропускной способности достаточно для устранения описанного выше узкого места в работе систем на высоких нагрузках и при решении ресурсоемких задач. Поэтому HBM2 полностью раскрывает невероятные возможности микросхем FPGA в области параллельных вычислений.
Основные преимущества памяти HBM2
- Более высокая энергоэффективность – потребление около 7 пДж/бит (в 4 раза меньше, чем у DDR4 форм-фактора DIMM).
- Увеличенная пропускная способность – 460 Гбайт/с (в 20 раз выше, чем пропускная скорость канала памяти DDR4-2400 форм-фактора DIMM).
- Компактные размеры микросхемы – 12×8 мм (в 45 раз меньше, чем плата памяти DDR4 форм-фактора DIMM, имеющая размеры 133×33 мм).
- Устойчивая пропускная способность – 32 канала (число каналов в 5,3 раза превышает это же значение у процессоров).
Реальные преимущества использования памяти с пропускной способностью в 460 Гбайт/с в дата-центрах
Возможности большинства современных систем анализа данных ограничены производительностью модуля памяти. СУБД оптимизированы для работы с памятью с возможностью параллельного доступа к данным через несколько каналов одновременно. Например, обычные процессоры Intel содержат всего 6 каналов, в то время как в картах Alveo U280 и U50 обеспечена поддержка 32 каналов памяти. То есть, эти карты содержат в 5,3 раза больше каналов в программируемой матрице, способной поддерживать и обрабатывать непрерывный поток входящих и исходящих данных по всем этим каналам одновременно. Для выполнения требовательных к памяти задач, например, таких как поиск и хранение ключей, поиск хэшей, сравнение с образцом и многих других, теперь используется большее число каналов, благодаря чему обеспечивается суперлинейное ускорение.
Различия в использовании HBM2 и DDR4 DIMM в ускорительных картах Alveo
На каждый HBM-канал выделено 256 Мбайт памяти. Поэтому максимальный размер объекта буфера, передаваемого хостом, может составлять не более 256 Мбайт на один HBM-канал. Микросхемы FPGA Xilinx содержат AXI-переключатель, обеспечивающий доступ ко всем 8 Гбайт памяти для каждого канала. В сравнении с DDR, здесь поддерживаются буферные объекты размером до 1 Гбайт для заполнения 16 Гб модулей памяти DDR4 форм-фактора DIMM.
DDR4-2667 | HBM2 | |
---|---|---|
Описание | Стандартная DRAM память, используемая в серверах и ПК | DRAM память с высокой пропускной способностью, интегрированная внутри микросхемы FPGA |
Пропускная способность | 21,3 Гбайт/c на DIMM | 230 Гбайт/c на стек |
Каналов | 1 канал | 16 псевдо каналов |
Типичная плотность | 16 Гбайт | 4 Гбайт |
Цена / Гбайт | $ | $$ |
Площадь на печатной плате | большая (133 × 33 мм) | размер микросхемы (12 × 8 мм) |
пДж / бит | ~27 (память + I/O) | ~7 (память + 2,5D I/O) |
Задержки | средние | средние |
Насколько сложен переход от DDR4 на HBM2?
При проектировании в среде Xilinx’s SDAccel™ ядра RTL и HLS преобразуются автоматически без внесения изменений в проект. Разработчик использует единый интерфейсов памяти AXI-4. SDAccel обеспечивает возможность автоматического или ручного сопоставления AXI-портов с технологией памяти на этапе компоновки. Этот инструмент по умолчанию выполняет автоматическое сопоставление каналов памяти в зависимости от доступности ресурсов. В то же время, продвинутые пользователи, которые хотят обеспечить оптимальное размещение, могут достичь этого, используя следующие дополнительные параметры:
Параметры режима подключения XOCC для DDR:
--sp vadd_1.A:DDR[0] |
Параметры режима подключения XOCC для HBM:
--sp vadd_1.B:HBM[0] |
Максимальная пропускная способность памяти для приложений на C++
Теперь разработчикам ПО доступны все преимущества микросхем FPGA в среде SDAccel™ с производительностью, сопоставимой высоко оптимизированному коду RTL. Для демонстрации простоты использования памяти HBM, на GitHub был загружен программный код, показывающий высокую пропускную способность памяти HBM2. Ядро, написанное на языке C++, считывает два вектора и выполняет одновременно две простые операции над ними: сложение и умножение. Этот пример включает ядро с восемью вычислительными блоками, которые обеспечивают доступ к 32 HBM-каналам по всей полосе пропускания. Во время тестирования удалось добиться скорости передачи данных в 421,8 Гбайт/с. Среда разработки Xilinx SDAccel обеспечивает возможность высокоуровневого синтеза (HLS) в приложениях, написанных на языке C++, что выглядит весьма впечатляюще.
Для получения подробных сведений о последних моделях ускорительных карт Alveo с HBM2-памятью перейдите по следующим ссылкам:
https://www.xilinx.com/products/boards-and-kits/alveo/u280.html
https://www.xilinx.com/products/boards-and-kits/alveo/u50.html
Для загрузки документации для карты U50 перейдите по ссылке -https://www.xilinx.com/publications/product-briefs/alveo-u50-product-brief.pdf
Компании, использующие системы обработки больших объемов данных уже оценили преимущества HBM-памяти.
Ускорители Xilinx Alveo: Адаптивное ускорение для современного дата-центра (ЦОД)
Автор:
Курт Вортман, старший менеджер по маркетингу продуктов Data Center Group.