У одного клиента был
очень конкретный сценарий:
· У них была группа доступности Always On с отказоустойчивым кластером Windows Server.· Каждый узел имел собственные диски, поэтому кворум был с использованием сетевой «шары».· Один узел находился в облаке, а другой был обычным сервером.· Сеть была нестабильной, что подтверждал агент мониторинга, который обнаружил потери связи, даже когда провайдер заверял, что проблем нет.· Некоторые сбои в работе сети привели к переходу кластера в состояние «resolving» с недоступностью баз, которая длилась до тех пор, пока не восстанавливалось соединение между узлами.
Однажды эти проблемы привели к повреждению операционки, когда на одном узле перестала запускаться служба кластера, а другой узел не смог принять на себя роль ведущего, потому что кластер был неисправен.