Все о Цифровых системах - новости, статьи, обзоры, аналитика. Более 1000 компаний, товаров и услуг в каталоге.
Добавить компанию

Huawei Cloud создает сетевой монитор, способный выявить неисправный чип в гиперсети

Рубрики: «Облачные сервисы», «Центры обработки данных (ЦОД)»

Инструмент под названием RD-Probe был представлен во вторник на конференции SIGCOMM 2024 в Сиднее.

Мониторинг сети жизненно важен, но его трудно достичь в гипермасштабе. Например, исследование компании Amazon Web Services говорит, что облако Amazonian имеет 1087 комбинаций внутрирегиональных каналов и 10176 комбинаций межрегиональных каналов. Сети центров обработки данных Huawei Cloud включают более 100’000 коммутаторов и миллион серверов. Мониторинг всей этой инфраструктуры и всех этих путей — в виртуализированной среде, которая использует случайность для балансировки нагрузки — очень затрудняет сбор достаточного количества данных о том, что происходит на втором уровне.

RD-Probe - это попытка Huawei Cloud решить эту проблему. Разработчики нового инструмента решили отслеживать каждый физический порт 2-го уровня, поскольку это позволяло им контролировать состояние работы коммутаторов. Использование только 3-го уровня означает, что некоторые порты не будут отслеживаться.

Мониторинг физических портов также помогает достичь охвата, большего чем это возможно при наблюдении за виртуальными сетями, которые по своей природе абстрагируют некоторые ресурсы, используемые для их работы. Это нежелательно, поскольку без всестороннего охвата инструменты сетевого мониторинга будут иметь «слепые зоны», из-за чего некоторые проблемы могут быть пропущены.

Инструмент начинает работу со случайной генерации зондов, затем делает это снова уже определенным образом. Эта двухэтапная схема снова используется для достижения требуемого охвата мониторинга сети. Зонды генерируют выделенный кластер из 16 узлов, в котором каждый сервер использует восьмиядерный процессор 2,80 ГГц с 64 ГБ памяти. Данные, генерируемые зондами, обрабатываются потоковым кластером из 48 узлов, в котором каждая машина использует 16-ядерный процессор 2,80 ГГц с 32 ГБ памяти.

В течение месяца использования RD-Probe компания Huawei Cloud обнаружила «множество ранее незамеченных проблем». К счастью, большинство из них «вызывали только симптомы замедления работы или периодическую потерю пакетов», и были обнаружены до того, как пользователи почувствовали ухудшение обслуживания. Это порадовало специалистов Huawei, поскольку они оценили проблему как «трудно обнаруживаемую с помощью ручного осмотра».

Неисправности, обнаруженные RD-Probe и пропущенные другими инструментами, включают:

  • Неисправный чип в блоке обработки линии основного коммутатора, используемого в службе хранения объектов, что привело к потере входящих пакетов и невозможности сообщить о проблеме на уровень управления;
  • Неправильная балансировка нагрузки, из-за которой трафик проходил только через локальный порт, а не через стековые кабели;
  • Использование неверных значений для некоторых маршрутов по протоколу BGP (протокол динамической маршрутизации), что привело к замедлению трафика.

Исследователи Huawei остались довольны RD-Probe, поскольку новый инструмент улучшил покрытие мониторинга сети с 80,9% до 99,5% и «выявил несколько ранее незамеченных проблем». В ближайшее время концерн планирует внедрить его в большем количестве облачных регионов.

Источник: