InfiniBand
Infiniband — высокоскоростная коммутируемая последовательная шина, применяющаяся как для внутренних (внутрисистемных), так и для межсистемных соединений.
Технология InfiniBand снимает ограничения по вводу/выводу в современных серверных архитектурах и с успехом может использоваться во встраиваемых системах и телекоммуникационных приложениях. Впервые стандартная архитектура ввода/вывода массового применения позволяет расширять традиционные объединительные панели и внутриплатные шины за пределы физических разъемов и базовых средств связи хост-системы с периферийными устройствами.
Архитектура InfiniBand, при разработке которой с самого начала предъявлялись высокие требования по надежности, готовности и удобству обслуживания, обеспечивает создание надежных, упорядоченных, сквозных соединений транспортного уровня. В вышедшей в октябре 2000 года исчерпывающей спецификации сформулированы требования к ПО начальной загрузки, обнаружения устройств и управления, характеристики "горячей" замены и управления системной платы, а также функции аварийного переключения. Определены также программные интерфейсы уровня сокетов, обеспечивающие прозрачное взаимодействие с существующими коммуникационными приложениями и запоминающими системами.
Содержание |
Краткое описание
Подобно PCI Express, Infiniband использует двунаправленную последовательную шину. Базовая скорость — 2,5 Гбит/с в каждом направлении, применяются порты, состоящие из групп в 1x, 4x и 12x базовых двунаправленных шин (англ. lanes). Существуют режимы Single Data Rate (SDR) - работа с базовой скоростью, Double Data Rate (DDR) - битовая скорость равна удвоенной базовой и Quad Data Rate (QDR) - соответственно, учетверенной. Режимы SDR, DDR и QDR используют кодирование 8B/10B. В настоящий момент (2011 г.) чаще всего применяются порты 4x QDR.
Базовая скорость 1х шины для режима FDR составляет 14.0625 Гбит/с, а для EDR 25.78125 Гбит/с. Режимы FDR и EDR используют кодирование 64/66B.
Основное назначение Infiniband — межсерверные соединения, в том числе и для организации RDMA (Remote Direct Memory Access).
Отличительные особенности FDR
FDR InfiniBand характеризуется следующими основными параметрами:
Параметры Link speed увеличились до 14 Гбит/с на линию или 56 Гбит/с по четырем линиям, т. е. увеличение происходит почти на 80% по сравнению с предыдущими поколениями InfiniBand (большинство портов InfiniBand представлены портами с четырьмя линиями);
Показатель Link кодировки для FDR InfiniBand был изменен с 8 бит/10 бит на 64 бит/66 бит. Это позволило повысить эффективность передачи данных и подключения устройств хранения;
Улучшены механизмы коррекции ошибок сети за счет использования технологии Forward Error Correction, которая позволяет устройствам InfiniBand исправлять битовые ошибки в сети и сокращает издержки на данные транзакции. Новый механизм обеспечивает высокую надежность сети, в частности для крупных ЦОДов, высокопроизводительных вычислений и облачных сервисов.
С появлением FDR InfiniBand 56Gb/s с поддержкой PCIe Gen3, ConnectX-3 стало возможным удвоить пропускную способность сетей хранения данных, что позволяет устранить одно из самых узких мест в современных серверных решениях.
Протоколы и API
Infiniband используется следующими протоколами и API:
- RDMA (англ. Remote Direct Memory Access) — группа протоколов удалённого прямого доступа к памяти, при котором передача данных из памяти одного компьютера в память другого компьютера происходит без участия операционной системы, при этом исключается участие CPU в обработке кода переноса и необходимость пересылки данных из памяти приложения в буферную область ОС, то есть данные пересылаются напрямую на соответствующий сетевой контроллер.
- uDAPL (англ. User Direct Access Programming Library) — библиотека API для абстрактного транспорта прямого доступа (англ. Direct Access Transport, DAT). uDAPL (и другие API — в частности kDAPL — kernel DAPL) разрабатывается и поддерживается организацией DAT Collaborative.
- IPoIB (IP over Infiniband) — группа протоколов, описывающих передачу IP-пакетов поверх Infiniband:
- RFC4390 Dynamic Host Configuration Protocol (DHCP) over InfiniBand
- RFC4391 Transmission of IP over InfiniBand (IPoIB)
- RFC4392 IP over InfiniBand (IPoIB) Architecture
- SRP (англ. SCSI RDMA Protocol) — протокол обмена данными между SCSI-устройствами с использованием RDMA. Определён в стандарте ANSI INCITS 365—2002.
- DDP (англ. Direct Data Placement):RFC4296 - архитектура для реализации прямого размещения данных (DDP) и удаленного прямого доступа к памяти (RDMA) в Internet-сетях.
- SDP (англ. Socket Direct Protocol) — протокол установления виртуальных соединений и обмена данными между сокетами поверх Infiniband, передача данных не использует TCP-стек операционной системы, однако использует IP-адреса и может использовать IPoIB для их разрешения.
Характеристики
- Производители: наиболее распространены аппаратные решения от компаний Qlogic, Mellanox, Voltaire, Topspin. Компания Topspin была приобретена компанией Cisco в 2005-м году, Mellanox купил Voltaire в 2010-м, а Intel приобрел Qlogic в 2012-м.
- Тесты производителей показывают пропускную способность на уровне MPI порядка единиц и десятков сотен МБ/сек и время передачи коротких сообщений порядка 1—7 мкс.
- Топология: коммутируемая с использованием Fat Tree для больших конфигураций, существующие коммутаторы поддерживают большое количество (>256) портов.
- Программное обеспечение: драйверы от производителей аппаратных средств, различные библиотеки MPI как коммерческие так и открытые.
- Корпорацией Oracle Corporation был разработан специальный протокол RDS, ориентированный на работу с этой шиной.
Другие сети для суперкомпьютеров
Ниже приведены наиболее часто используемые типы коммуникаций для суперкомпьютеров и их основные характеристики.
- Gigabit Ethernet
- Myrinet
- SCI
- QsNet
- RapidIO