Построение отказоустойчивых сетей Ethernet
Отказоустойчивость — свойство ИТ-системы сохранять свою работоспособность после отказа одного или нескольких составных компонентов.
Исходя из определения, для построения отказоустойчивой сети необходимо обеспечить отказоустойчивость всех её компонентов: программного обеспечения (системного и прикладного), аппаратного обеспечения ИТ-системы на уровне логических модулей (например, подсистемы хранения данных), аппаратного обеспечения ИТ-системы на уровне отдельного устройства (сервера), отдельных модулей внутри самого устройства и отдельной площадки. Сейчас для этого используется общий принцип избыточности, по-разному реализуемый на всех уровнях системы.
Для программного обеспечения используются различные способы кластеризации, подразумевающие установку идентичного ПО на всех узлах. В случае отказа или сбоя на одном из них его нагрузка перераспределится между правильно работающими. За это отвечает кластерное ПО, которое по заданным критериям определяет, какой узел в порядке, а какой необходимо отключить.
Для аппаратного обеспечения ИТ-системы на уровне логических модулей - похож на предыдущий способ, но кластеризация аппаратных средств проводится без использования внешнего ПО. Это применяется в системах хранения данных и серверных многоузловых сборках. Средства управления в этом случае отвечают только за исправность аппаратной составляющей и не контролируют работу ПО.
Для аппаратного обеспечения ИТ-системы на уровне отдельного устройства применяется избыточность наименее надежных устройств. Например, сервер может иметь несколько дополнительных блоков питания и вентиляторов охлаждения.
Для отдельных модулей внутри устройства отказоустойчивость основана на избыточности отдельных аппаратных компонентов: жестких дисков, модулей оперативной памяти и др. Часто используется при организации хранения данных.
Также существует вариант катастрофоустойчивого решения, весьма дорогого, т.к. оно подразумевает почти полноценное дублирование центра обработки данных.
Таким образом, создав резервы на всех уровнях приведёнными методами, можно обеспечить бесперебойную работу системы.