Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Big Data/Аналитика: Статьи Новости компаний Решения

Панорама

Технический лидер по развитию облачных сервисов Cloud.ru Григорий Немыченков

В России публичные облака часто выбирают за их масштабируемость и возможность снизить расходы …

Как выбрать российский NGFW и не ошибиться?

К концу 2024 года на российском рынке NGFW ожидаемо наблюдается высокая конкуренция среди производителей этого …

Российский суперапп для бизнеса eXpress: новые фичи в 2024 году и планы по развитию

В 2024 году рынок корпоративных коммуникаций продолжил развиваться, однако краеугольные камни эффективного рабочего …

Руслан Заединов, Рексофт: «Экспорт услуг ЦОД не стоит ждать даже в самой отдаленной перспективе»

В декабре 2024 года многопрофильная технологическая группа Рексофт объявила о создании департамента «Облака …

«Хакеры умнее не становятся, но при этом мешают жить всё большему количеству организаций»

Кибератаки превратились в целую отрасль преступного бизнеса, искусственный интеллект пока играет на стороне …

Как создать набор данных для искусственного интеллекта

10.09.2024

Успешная реализация ИИ-стратегии на предприятии зависит от качества данных, лежащих в ее основе. Опрошенные порталом ComputerWeekly эксперты рассказывают, как компаниям убедиться в том, что они идут по правильному пути, когда речь идет о ранних стадиях этого процесса.

Поиск и приобретение нужных данных для создания корпоративного набора данных — это, пожалуй, самая важная задача, стоящая перед организациями, которые хотят создавать свои собственные ИИ-модели.

Как отмечает Вазим Али, генеральный директор консалтинговой компании Rockborne, даже при наличии практического опыта все может пойти не так, как хотелось бы. «Все всегда начинается с данных, — говорит он. — Если данные плохие, то и модель не будет хорошей».

По его словам, часто задача состоит не в том, чтобы захватить мир своим первым проектом, а в том, чтобы провести пилотный проект, который позволит предприятию двигаться дальше. Следует изучить конкретные потребности бизнеса и требования к данным или цифровому проекту, уточнить, какую проблему нужно решить и какие «догадки» нужно проверить, но поначалу стоит избегать глубокого погружения в «глобальные последствия» своей разработки.

Как советует Йоханнес Маунц, руководитель направления ИИ компании Hexagon, специализирующейся на промышленном IoT, начните с основ и двигайтесь к получению данных для конкретного сценария использования. «Не существует одной модели машинного или глубокого обучения для решения всех задач, — говорит он. — Сравните свой статус-кво с тем, что вам нужно улучшить. Какие доступные данные необходимо собрать? Сделайте это в небольших масштабах или ограниченным способом, только для данного сценария использования».

Подход Hexagon обычно сосредоточен на собственных датчиках, поставляющих для строительных приложений данные о стенах, окнах, дверях и т. д. Вплоть до отображения проекта в браузере компания знает все об этих данных, их стандартах, формате, согласованности и т. п.

По словам Маунца, в первую очередь необходимо рассмотреть данные и наборы данных, которые уже есть у предприятия или которые оно может использовать в соответствии с нормативными требованиями. Как правило, это требует тесного сотрудничества с юридическими службами и службами защиты конфиденциальности, даже если речь идет о промышленном предприятии. Следует убедиться, что данные, предназначенные для использования, не содержат никакой частной личной информации. После этого предприятия могут создать модель, которую они хотят использовать, и обучить ее — при условии, что затраты и целесообразность будут обеспечены.

В результате может появиться понимание точек принятия решений, необходимых для того, чтобы все работало, и получены сигнальные значения для оценки таких факторов, как удобство использования и жизнеспособность, влияние на бизнес или потенциальная эффективность по сравнению с данными конкурентов.

Для данных, которыми предприятие в настоящее время не располагает, могут потребоваться переговоры с партнерами или клиентами для их приобретения. «Люди, вообще говоря, довольно открыты, но всегда нужен договор, — говорит Маунц. — Только после этого можно начинать проводить то, что обычно называют кампаниями по сбору данных. Иногда даже имеет смысл начать с большего количества данных, чем требуется, чтобы предприятие могло сократить выборку».

Качество и простота данных могут иметь большое значение

Эмиль Наус, партнер консалтинговой компании BearingPoint, специализирующейся на анализе цепочек поставок, подчеркивает, что для успешной реализации ИИ/МО необходимо уделять особое внимание качеству данных. По возможности упрощайте данные, советует он. Сложность затрудняет принятие правильных решений и ухудшает результаты — а ведь еще нужно учитывать предвзятость и интеллектуальную собственность. «Внутренние данные не идеальны, но, по крайней мере, у вас должно быть представление о том, насколько они хороши», — добавляет Наус.

В отличие от простой 2D- или даже 3D-модели, сложная многомерная модель на основе ИИ/МО может дать гораздо лучшие результаты — оптимизацию производства, «рецепты» решений, минимизацию отходов и многое другое, — если предприятия «дадут волю» правильным данным, отмечает он.

«Любая модель ИИ неточна, поэтому ключевую роль играет управление данными, — говорит Наус. — Биты, которых у вас нет, на самом деле могут быть более важными. Вы должны определить, насколько полны данные и насколько они точны».

Энди Крисп, старший вице-президент по данным и аналитике Dun & Bradstreet, рекомендует использовать клиентские инсайты и критические элементы данных для установления стандартов и допусков качества данных, их измерения и мониторинга.

«Данные, которые клиенты хотят получить или приобретают у нас, например, также потенциально могут использоваться в их моделях, — говорит он. — Мы выполняем около 46 млрд. расчетов качества данных, берем наши данные и потом, возможно, снова сравниваем их с этими стандартами, а затем ежемесячно публикуем наблюдения за качеством данных».

Например, конкретный атрибут через призму конкретного стандарта должен быть достаточно эффективным, чтобы его можно было передать следующей команде, которая берет эти стандарты и допуски, результаты измерений и наблюдений, а затем работает с управлением данными для их сбора, хранения и поддержания, поясняет Крисп.

«Нет ничего лучше, чем потратить время на изучение и развитие своего понимания. Начните с распила одного куска дерева и проверьте длину, прежде чем вы пойдете и распилите 50 досок неправильно», — советует он.

Предприятиям необходимо «знать, как выглядит хорошее», чтобы повысить продуктивность данных и улучшить понимание, которое затем можно будет собрать воедино. Сохраняйте четкость постановки задачи, сужая круг данных для требуемых наборов, советует Крисп. Тщательное аннотирование и метаданные могут обеспечить кураторство контрольных наборов данных и подлинно научный подход, который выявляет и помогает минимизировать предвзятость.

Остерегайтесь громких и смелых заявлений, в которых объединяются несколько факторов, и обязательно проводите «проверку на прочность». Это одна из областей ИТ, где предприятиям не стоит «действовать быстро и ломать все». Все используемые данные должны соответствовать стандартам, которые, в свою очередь, должны постоянно проверяться и исправляться, отмечает Крисп.

«Измеряйте и контролируйте, исправляйте и улучшайте, — советует он. — Компетентные инженеры помогут уменьшить количество галлюцинаций и т. д.».

Грег Хэнсон, генеральный вице-президент Informatica по Северной Европе, Ближнему Востоку и Африке, отмечает, что постановка целей имеет решающее значение и может помочь предприятиям определить, как лучше потратить время на каталогизацию информации, ее интеграцию и какие данные необходимы для обучения ИИ, чтобы обеспечить надлежащие конечные результаты.

Даже собственные данные предприятия, как правило, фрагментированы и спрятаны в разных местах, облаках или на локальных площадках. «Составьте каталог всех ваших информационных активов и поймите, где эти данные находятся, — говорит Хэнсон. — И рассмотрите возможность использования ИИ для ускорения управления данными».

Обеспечьте управление данными перед их вводом

Применяйте все правила обеспечения качества данных до того, как они попадут в механизм ИИ, при условии надлежащего управления и соблюдения требований. Если предприятие не измеряет, не оценивает и не исправляет ошибки, то оно просто будет принимать неверные решения в ускоренном темпе, говорит Хэнсон, добавляя: «Помните: мусор на входе, мусор на выходе».

Тендю Йогуртчу, технический директор поставщика пакетов данных Precisely, отмечает, что в зависимости от размера компании и типа отрасли, организация может рассмотреть возможность создания руководящего комитета или межфункционального совета для определения передового опыта и процессов для всех релевантных инициатив в области ИИ. Это также может помочь ускорить ИИ-инициативы за счет выявления общих сценариев использования или шаблонов для всех команд, которые сами по себе могут продолжать меняться по мере того, как организации узнают о результатах пилотных и производственных проектов.

Рамки управления данными могут потребовать расширения для включения моделей ИИ. При этом потенциальных сценариев использования ИИ великое множество. «Возьмем страхование. Для моделирования рисков и точного ценообразования страховщикам нужна подробная информация о рисках лесных пожаров и наводнений, топографии участка, точном расположении здания на участке, близости к пожарным гидрантам и расстоянии до потенциально опасных объектов, таких как автозаправочные станции», — объясняет Йогуртчу.

Однако создание моделей ИИ — особенно генеративного ИИ (GenAI) — может оказаться дорогостоящим, предупреждает Ричард Файерс, старший директор по данным и аналитике консалтинговой компании Slalom.

«Возможно, в некоторых областях компании могут поработать вместе — например, в юриспруденции или медицине, — говорит он. — Мы начинаем видеть, как компании извлекают выгоду, когда дополняют GenAI своими данными — есть разные способы сделать это».

Так, в архитектуре пользователи могут дополнить использование больших языковых моделей (LLM) собственными наборами данных и документацией, которые можно запросить. Аналогичная стратегия может сработать при создании платформы для поиска билетов на мероприятия, которая интеллектуально учитывает набор критериев на основе естественного языка, не связанных один к одному с метаданными и тегами. «Вероятно, вы бы захотели использовать такую платформу, которая позволила бы вам найти „представление в выходные дни, подходящее для детей“, однако такой тип поиска сейчас может оказаться довольно сложным», — говорит Файерс.

По его словам, создание наборов данных и разработка подсказок для таких систем, как ChatGPT, для более «разговорного» подхода, по-прежнему требует внимания к качеству данных и управлению ими, а разработка подсказок станет одним из самых востребованных навыков.

Печать

Как создать набор данных для искусственного интеллекта

Качество и простота данных могут иметь большое значение

Обеспечьте управление данными перед их вводом

Комментарии