В условиях, когда центры обработки данных пытаются решить проблему энергоэффективности и декарбонизации, искусственный интеллект становится мощным решением. Ян Клатворти, директор по маркетингу продуктов для платформ обработки данных компании Hitachi Vantara, и Эрик Шварц, вице-президент по инженерным вопросам компании DataBank, рассказали порталу InformationWeek о возможностях и ограничениях решений на основе ИИ для ЦОДов.
Считается, что на дата-центры и другие облачные вычисления приходится до 1% мирового энергопотребления. Однако углеродный след, связанный с эксплуатацией этих огромных серверных ферм, и особенно с их охлаждением, далеко не так незначителен. Считается, что около 50% потребляемой ЦОДами электроэнергии приходится на основные эксплуатационные расходы и до 40% — на охлаждение.
Дата-центры ищут все новые и новые решения — от использования возобновляемых источников энергии до размещения под водой с целью экономии затрат на охлаждение.
Некоторые из наиболее рациональных и практичных решений связаны с применением ИИ для поиска и устранения неэффективных затрат. По оценкам Gartner, в ближайшей перспективе ИИ будет использоваться в половине всех дата-центров. В отчете IDC «Worldwide Datacenter 2019 Predictions» говорится о том, что это уже произошло. Рабочие нагрузки будут расти на 20% в год, так что проблема становится еще более актуальной.
Сбор необходимых данных
Для создания и калибровки полезных ИИ-инструментов дата-центры должны собирать и вводить надлежащие данные. Это оказалось непростой задачей, поскольку некоторые типы данных, которые исторически не были нужны в повседневной работе, просто игнорируются. Некоторые из них могут собираться, но не использоваться. А некоторые вообще не собираются, что вынуждает операторов начинать работу с нуля или экстраполировать имеющиеся данные.
Необходимые данные об аппаратном обеспечении включают в себя: доступное хранилище, удобство доступа, количество машин, работающих в данный момент времени, и машины, на которые направляется трафик при тех или иных обстоятельствах. Важны также данные об энергии, затрачиваемой на питание машин и охлаждение, а также данные об параметрах среды внутри и вне центра.
«Необходимо иметь все эти данные, чтобы построить правильную систему ИИ с машинным обучением и действительно повысить эффективность, — говорит Шварц. — Причем каждая из этих точек данных может исказить другую».
На самом деле ИИ может быть полезен в первую очередь для сбора этой информации. При правильных инструкциях можно извлечь полезную информацию, скрытую в казалось бы не связанных между собой статистических данных. По словам Клатворти, при правильном массировании данных «реально представить информацию так, чтобы она что-то значила».
Как использовать ИИ для повышения эффективности
Энергопотребление серверов — основная цель для вмешательства ИИ. Серверы, которые не используются, остаются включенными, а входящий трафик неэффективно распределяется между имеющимся оборудованием. Системы диспетчеризации могут использовать глубокое обучение для правильного распределения трафика. Он может быть распределен между доступными машинами таким образом, чтобы оптимально использовать их возможности, но не перегружать их.
А неиспользуемые машины могут быть отключены до тех пор, пока они не понадобятся. «Еще лучше, — говорит Клатворти, — отключить процессор». Включать и выключать машины, по его мнению, неэффективно.
Также можно предугадать трафик, что позволит более экономно использовать оборудование. Благодаря этому повышается эффективность использования электроэнергии (PUE). ИИ может помочь в масштабировании этих процессов по мере роста рабочей нагрузки.
Дальнейшее повышение эффективности может быть достигнуто за счет предиктивного обслуживания. «Понимая исторические данные о проблемах с компонентами или графиках технического обслуживания и увязывая их с бюджетными ассигнованиями, организации могут использовать ИИ для создания прогнозных моделей», — говорит Клатворти.
Используя данные для определения вероятности возникновения сбоев, можно легче создавать необходимые резервные копии. Патчи и обновления, которые являются трудоемкими и обременительными, также могут быть в определенной степени автоматизированы. А вышедшее из строя оборудование можно заменить или отремонтировать до того, как оно приведет к перебоям в работе.
Управление самими источниками энергии также может выиграть от использования ИИ. Определив, когда наиболее доступны возобновляемые источники энергии — ветреные дни для ветряной энергии, солнечные дни для солнечной энергии, — дата-центры могут спланировать, когда они будут использовать эти источники, а когда прибегать к источникам электроэнергии, получаемой из ископаемого топлива. Выделяемое тепло может быть перенаправлено и использовано как в самом центре, так и на близлежащих объектах.
«Используя ИИ для определения наилучшего времени для использования возобновляемых источников энергии, вы получаете лучшее из двух миров», — утверждает Шварц.
Системы охлаждения — еще одна цель для ИИ-программ повышения эффективности. Как и электропитание, в прошлом они были постоянными. То есть они не корректировались в зависимости от изменяющихся параметров, а работали с постоянной интенсивностью, определяемой нечеткими оценками потребностей.
Охлаждение очень дорого — как с финансовой точки зрения, так и с точки зрения выбросов углекислого газа, — и даже незначительные изменения в системах охлаждения могут дать существенную экономию. При управлении тепловым режимом необходимо учитывать такие факторы, как температура окружающей среды, погодные условия, количество тепла, выделяемого активными машинами в каждый момент времени, материалы, из которых построено здание, и существующие системы отопления, вентиляции и кондиционирования воздуха (HVAC).
ИИ может направить охлаждение на те системы, которые в нем нуждаются, вплоть до конкретных стоек, и отключить его в тех зонах, где оно не требуется. Он даже может учитывать время запаздывания, прогнозируя, когда в определенных секторах будет задействовано электропитание, и заранее направляя туда охлаждение.
Как цифровые двойники позволяют оптимизировать системы ЦОДа
Создание цифрового двойника, или виртуального представления физической среды ЦОДа, позволяет смоделировать взаимодействие различных компонентов без риска нарушения работы самой системы. Получив данные об энергопотреблении, температуре, трафике, погоде и других факторах, ИИ-архитекторы могут разработать оптимальные условия для ЦОДа — по крайней мере, теоретически.
«Можно моделировать различные конфигурации охлаждения, — говорит Клатворти. — Будь то Сингапур, Мельбурн, Европа, дождь — можно определить наиболее эффективные схемы охлаждения, исходя из расположения оборудования и погодных условий».
Недостающие данные — а их всегда не хватает — конечно, искажают эти цифровые модели. Но уже при наличии достаточного количества исторических данных можно создать реалистичные модели реального функционирования и энергопотребления дата-центров.
Однако цифровые двойники не являются самодостаточными. Они требуют настройки со стороны наблюдателей, которые могут отметить значения параметры, выходящие за границы, возможные в физическом мире. Таким образом, модели со временем совершенствуются.
Проблемы внедрения ИИ в дата-центрах
Дефицит данных представляет собой наиболее серьезную проблему для внедрения ИИ в ЦОДах. В то время как некоторые данные, которые собираются для других целей, уже готовы для ввода в системы ИИ, часть данных, необходимых для оптимизации работы ИИ, до сих пор остается в цифровом эфире. Некоторые из них могут быть получены ретроактивно из других источников. Но другие типы данных, для которых отсутствуют исторические записи, требуют новых методик. Здесь дата-центрам приходится начинать с нуля.
Например, ЦОДы имеют в своем распоряжении данные об энергопотреблении новой машины, указанные производителем. Однако данные об изменении энергопотребления машин по мере их старения и снижения производительности могут быть не собраны, а значит, не могут быть использованы в решениях на основе ИИ. Необходимо глубокое знание возможностей и уязвимостей каждой единицы используемого оборудования, которое зачастую трудно получить.
Как отмечает Шварц, многопользовательские дата-центры сталкиваются с дополнительной сложностью при сборе данных, поскольку они должны соблюдать соглашения о конфиденциальности со своими клиентами. «Есть разные типы клиентов с разными потребностями и разным уровнем риска, — поясняет он. — Когда вы пытаетесь учесть все это, вы, как правило, понимаете, что не можете быть теми, кто живет на грани».
Для обеспечения внедрения ИИ также требуются новые и сложные системы и оборудование — это так называемый «налог на ИИ». На начальном этапе это не дешево, но в дальнейшем экономия становится ощутимой. Тем не менее, запуск системы — задача не из легких: данные необходимо собирать, обрабатывать, вводить, а затем снова анализировать.
Еще одной проблемой является обеспечение устойчивой связи дата-центров друг с другом. «Мы изучаем возможности использования ПО с ИИ для перемещения данных из дата-центров без каких-либо последствий для клиента», — говорит Клатворти. При этом возникает множество препятствий, особенно если учитывать возобновляемые источники энергии. «Солнце уже садится. Это означает, что мы не будем использовать солнечную энергию для перемещения этого набора данных», — поясняет он.
Даже по мере того, как системы ИИ совершенствуются и лучше ориентируются в принятии подобных решений, в некоторых ситуациях они все еще не могут сравниться с человеческим мышлением.
«ИИ пока не способен своевременно принимать сложные стратегические решения, — замечает Клатворти. — Поэтому я хочу, чтобы он рассказал мне, каковы будут мои возможности в долгосрочной перспективе, рассказал мне, что необходимо модернизировать. А свою команду я фокусирую на непредвиденных аномалиях».
По мере того как ИИ будет становиться все более неотъемлемой частью операций ЦОДа, обязанности штатных специалистов должны будут соответствующим образом корректироваться.