OpenAI обвиняет облачного провайдера в отключении ChatGPT

Как опытный веб-мастер с многолетним опытом работы за плечами, я видел немало сбоев и простоев. Недавний инцидент с OpenAI, безусловно, стал одним из самых значительных событий, свидетелем которых я стал за последние годы. Хотя вполне понятно, что могут произойти сбои в региональных базах данных, глобальные последствия этого сбоя стали напоминанием о нашей растущей зависимости от этих мощных инструментов искусственного интеллекта.

Тот факт, что такое масштабное событие могло быть связано с ручным вмешательством провайдера облачных услуг, одновременно удивляет и тревожит. Это подчеркивает важность автоматизации в сценариях аварийного переключения, поскольку даже при использовании зеркальных баз данных человеческая ошибка или задержка могут иметь далеко идущие последствия.

Стремление OpenAI улучшить свою инфраструктуру на случай будущих сбоев воодушевляет, и я искренне поддерживаю их усилия по созданию более устойчивой системы. Добавление уровня косвенного управления под их контролем между приложениями и облачными базами данных, несомненно, приведет к сокращению времени переключения при сбое и повышению надежности обслуживания.

По большому счету важно помнить, что даже самые мощные модели ИИ могут время от времени спотыкаться о собственные шнуры питания. Как говорится, даже супергероям иногда нужен перерыв – даже если для этого придется отключить ChatGPT на несколько часов!

В отчете OpenAI об инциденте на прошлой неделе объясняется причина простоя ChatGPT и шаги, которые они предпринимают, чтобы подобное происшествие не повторилось. Инцидент начался в 10:40 26 декабря 2024 года, и хотя большая часть системы была восстановлена ​​к 15:11, самому ChatGPT потребовалось до 18:20, чтобы полностью восстановиться.

Затронуты следующие службы:

  • ЧатGPT
  • Создание видео Сора
  • API: агенты, речь в реальном времени, пакетная обработка и DALL-E.

Причина сбоя OpenAI

Сбой электропитания в дата-центре, предоставляемом нашим облачным сервисом, затронул базы данных OpenAI. Несмотря на то, что эти базы данных дублируются в разных регионах, перенос операций в резервную базу данных потребовал вмешательства человека со стороны облачного провайдера, чтобы перенаправить действия в другой резервный центр обработки данных в другом регионе. Разрешение было достигнуто посредством ручного вмешательства; однако задержка была объяснена сложностью стоящей перед нами задачи.

Автоматическая процедура переключения на резервную систему, когда в основной системе возникают проблемы, называется аварийным переключением. OpenAI сообщила о своих усилиях по внесению изменений в свою инфраструктуру, направленных на повышение способности более эффективно справляться с потенциальными будущими сбоями баз данных в облаке.

В ближайшие несколько недель мы планируем запустить важный проект, направленный на повышение надежности наших систем. Мы сделаем это, внедрив дополнительный уровень управления, который мы контролируем, который находится между нашими приложениями и нашими облачными базами данных. Этот уровень обеспечит более быстрое восстановление в случае длительных сбоев в любом регионе наших облачных провайдеров.

Значительный сбой ChatGPT

Первоначально о сбое в OpenAI сообщалось как о проблеме с локальной базой данных, однако его влияние ощущалось во всем мире, о чем свидетельствуют сообщения пользователей в социальных сетях из различных частей Европы и Северной Америки. Более того, данные Google Trends показали, что этот инцидент, возможно, был самым масштабным из когда-либо произошедших, и о нем спрашивало больше людей, чем о любом предыдущем отключении электроэнергии.

Смотрите также

2025-01-03 19:38