Предприятия спешат реализовать стратегии внедрения искусственного интеллекта, однако важнейший этап подготовки данных может стать для них серьезным препятствием, считают опрошенные порталом InformationWeek эксперты.

На многих крупных технологических конференциях и мероприятиях разговоры о внедрении ИИ сегодня являются общей темой, поскольку ИТ-руководителям поручено создавать новые инструменты генеративного ИИ (GenAI) для бизнеса. Однако общим рефреном также стала необходимость подготовки данных для машинного обучения.

Необходимость в чистых данных может замедлить процесс запуска ИИ и увеличить расходы.

Согласно данным исследования Salesforce, CIO тратят в среднем 20% своего бюджета на инфраструктуру и управление данными и только 5% — на ИИ. Отсутствие надежных данных заняло первое место в списке главных опасений CIO в отношении ИИ. В отчете IDC говорится, что мировые расходы на ИИ достигнут в 2028 г. 632 млрд. долл.

Индустрия была застигнута врасплох, когда два года назад ChatGPT от OpenAI быстро запустил гонку GenAI — многие компании сталкиваются с необходимостью адаптировать свои потребности в данных, чтобы эти данные были готовы к ИИ. Затраты на подготовку данных могут стать существенными стартовыми инвестициями в ИИ, варьирующимися в зависимости от размера и зрелости различных организаций.

Подготовка данных для ИИ — непростая и потенциально дорогостоящая задача. ИТ-руководители должны учитывать несколько факторов, включая качество, объем и сложность данных, а также готовиться к расходам, связанным со сбором, очисткой, маркировкой и преобразованием данных, чтобы сделать их пригодными для использования в модели ИИ. Если добавить к этому потребности в новом оборудовании и ПО и трудозатраты, связанные с внедрением GenAI, то счета быстро вырастут.

CIO и другие технические руководителям приходится представлять ИИ как потенциального создателя ценности и возможного генератора прибыли. Но многие компании сталкиваются с трудностями, когда речь заходит об окупаемости новых программ GenAI: затраты времени и денег на подготовку данных часто не приводят к немедленной отдаче.

Потратиться на данные, чтобы заработать с помощью ИИ

Барб Виксом, главный научный сотрудник Центра исследований информационных систем Массачусетского технологического института (MIT CISR), говорит, что руководители могут апеллировать к конкретным успехам других компаний, которые имеют более зрелые внедрения ИИ. По ее словам, эти компании извлекают из данных бóльшую ценность благодаря дальновидной политике.

«ИИ нужно рассматривать не в отдельности, а как возможность извлечения из данных ценности или реализации на основе данных, — поясняет она. — Я называю это монетизацией данных... превращением данных в деньги. Если организации и особенно их руководители будут последовательно рассматривать ИИ в этом контексте, у них не будет проблем... Если организация пытается сократить структуру затрат на определенный процент, или пытается каким-то образом увеличить продажи, или увеличить рост обслуживания — какой бы ни была цель — речь часто идет о больших деньгах. Даже если вы вкладываете в ИИ огромные средства, результат может быть на порядки выше».

В условиях, когда технологические бюджеты сокращаются на фоне макроэкономических проблем, ИТ-руководителям необходимо убедить нетехнических членов совета директоров в том, что подготовка данных — это стоящая инвестиция. В качестве подтверждения Виксом приводит истории успеха из сфере финансовых услуг, где ИТ-руководители пользовались большим авторитетом среди руководителей. По ее словам, один из таких руководителей использовал внутреннюю консалтинговую группу для сбора сценариев использования данных, чтобы представить высшему руководству более традиционный бизнес-план. «Они составили план развития системы на четыре года и смогли его выполнить», — говорит Виксом.

Однако другие организации могут быть не столь зрелыми в управлении данными, как крупные финансовые учреждения. В этих случаях также может быть эффективен поэтапный подход «снизу вверх». «Не обязательно начинать с видения всего, что предстоит сделать... Можно использовать поэтапный подход, который позволяет наращивать потенциал, учиться по ходу дела и создавать не изолированные структуры, а растущий корпоративный ресурс», — отмечает Виксом.

Следующий шаг: поиск правильной архитектуры, которая будет соответствовать вашим целям в области ИИ. Data mesh (сетка данных) и data fabric (ткань данных) — два конкурирующих передовых подхода к современной архитектуре данных, которые похожи, но имеют ключевые различия.

Современные архитектуры данных: сетка или ткань?

В эпоху до GenAI управление данными было относительно простым. Многие компании объединяли данные в озера данных, в которых хранились большие объемы необработанных данных. Применительно к ИИ такая обобщенная архитектура может создавать узкие места, препятствующие производительности. Архитектуры data fabric и data mesh становятся новыми отраслевыми стандартами при внедрении GenAI. Это связано с тем, что эти современные архитектуры объединяют данные из разных источников в единое представление, упрощают обслуживание данных, сокращают время и затраты.

Сетка данных может стать хорошим вариантом для тех, кто хочет наделить отдельные подразделения правом владения данными.

Ткань данных предлагает централизованную архитектуру, объединяющую данные по всей организации. Этот метод позволяет создать единую структуру данных с централизованным управлением.

Но эти новые архитектуры имеют свою цену. Более высокие стартовые затраты и текущие расходы на обслуживание могут стать серьезными препятствиями для некоторых предприятий, в зависимости от размера и текущего состояния управления данными. Сетка данных, скорее всего, потребует бóльших стартовых затрат. Ткань данных имеет более низкую стоимость внедрения, но, скорее всего, будет стоить дороже в обслуживании.

Поэтому важно понимать потенциальные сценарии использования, чтобы обосновать расходы и понять, какая архитектура подходит вашей организации, говорят эксперты.

Инна Токарев Села, исполнительный директор и основатель компании Illumex, специализирующейся на ткани данных, указывает на конкретные сценарии использования, которые могут получить наибольшую выгоду от современных архитектур данных. По ее словам, наибольшую выгоду из data fabric могут извлечь организации, которые стремятся к автоматизации, доступу бизнес-пользователей к аналитическим данным в режиме самообслуживания, автоматизации рабочих процессов. Эта архитектура принесет пользу компаниям с разрозненными командами, которым необходимо использовать данные для построения аналитики и совместной работы.

«Data fabric и data mesh — это как Монтеки и Капулетти или Хэтфилды и Маккои, — говорит Кендалл Кларк, соучредитель и генеральный директор компании Stardog, специализирующейся на обработке данных. — Они настолько похожи, что никто не может их отличить друг от друга, но различия есть».

По его словам, из-за этого клиенты могут запрашивать ткань данных, хотя на самом деле они описывают архитектуру сетки данных. Поэтому гораздо важнее иметь четкое представление об уникальных потребностях вашего бизнеса в данных: «Ярлыки на самом деле не так уж важны».

С чего начать? Найти «точку опоры»

«Не обязательно принимать правильное решение, нужно просто сделать правильный выбор, — говорит Кларк о выборе новой архитектуры данных для внедрения GenAI. — Я бы начал с определения суперкритической, суперважной проблемы, которая действительно изменит ситуацию в вашей организации. Чего-то, что позволит вашему бизнесу экономить больше денег, управлять рисками, зарабатывать больше денег, повышать продуктивность людей — ключевые моменты, которые помогут продвинуть бизнес вперед. Вам нужно выбрать одну из них в качестве точки опоры».

Независимо от того, с чего вы начнете, для успешного перехода к любой архитектуре данных необходимы чистые, хорошо управляемые данные, утверждает Виксом. «Неважно, будет ли это сетка данных или ткань данных, если мы просто будем применять лучшие практики так, как нам действительно следует... Например, если использовать хорошие метаданные, то внезапно у нас появится функциональная совместимость, потому что у нас есть согласованность и стандарты. Проблема в том, что большинство организаций являют собой разрозненность и хитросплетение — они не следовали правилам из учебника с самого начала, поэтому сейчас они находятся в режиме исправления».