У многих компаний сложилось ошибочное представление о взаимосвязи больших данных и искусственного интеллекта. Опрошенные порталом Enterprisers Project эксперты проясняют ключевые детали, касающиеся совместной работы этих технологий.
По мере того, как организации продолжают наполняться большими данными — объемными, высокоскоростными и/или разнообразными информационными активами — встает вопрос, как из них извлечь информацию, которая бы представляла ценность для бизнеса. «Обладание большими данными, естественно, ведет к передовой аналитике. Когда у вас есть возможность собрать много информации по теме бизнеса, который за счет этого можно улучшить, вас не устроит поверхностный подход и вы наверняка захотите открыть неизвестное, выяснить первопричину, предсказать, что произойдет, решить проблемы с предельной точностью, — говорит старший директор по управлению продуктами Talend Жан-Мишель Франко. — Люди не могут сделать это в одиночку, без помощи машины».
ИИ для бизнеса следует рассматривать не только как средство для осмысления накопленной информации, но и дисциплину, работа которой зависит от наличия больших массивов данных, поэтому вполне естественно, что сегодня большие данные и ИИ часто ассоциируются друг с другом. «Безусловно, между большими данными и ИИ существует тесная связь, — утверждает Жан-Поль Баритуго, директор компании Pace Harmon, которая оказывает консалтинговые услуги в сфере трансформации бизнеса и аутсорсинга. — Большие данные — это топливо, а ИИ — это средство достижения цели».
В современном мире предприятия и организации все чаще обращаются к дата-центричным стратегиям, однако далеко не все из них понимают, что такое большие данные и ИИ и, главное, какая между ними взаимосвязь. Ниже приводятся разъяснения экспертов, которые помогут уловить связь между ИИ и большими данными.
1. Некоторые разновидности ИИ обходятся без больших данных
По словам Баритуго, чтобы раздобыть достаточное количество «хороших» данных и, как следствие, получить значительную отдачу от инвестиций в ИИ, применяется концепция «мусор на входе — мусор на выходе» (garbage in, garbage out). Но какой объем данных для этого требуется — зависит от конкретной ситуации. «В традиционном понимании большие данные — большие наборы структурированных и неструктурированных данных. В некоторых сценариях они выступают в качестве источника для обучения ИИ, анализа информации, чтобы определить закономерности и найти вероятности, которые помогут с ответами на ваши вопросы. Как правило, для этих случаев требуется большой объем данных, — объясняет исполнительный вице-президент и заслуженный аналитик Everest Group Сара Бернет. — Но не для всех типов ИИ требуется много данных».
Например, некоторые виды чат-ботов «из коробки» обходятся минимальными входными данными. «Как правило, ИИ требует больших унифицированных наборов данных (т. е. „очищенного“ подмножества больших данных), чтобы он мог осмысленно различать закономерности и генерировать необходимые выходные результаты, — говорит Баритуго. — Объем требуемых данных (включая обучающие и оценочные наборы данных) в основном определяется сложностью задачи, количеством входных признаков, которые необходимо оценить, и используемым алгоритмом». Нужно иметь в виду, что тренинга моделей машинного обучения (МО) нужно меньше данных, чем для глубокого обучения (еще одна подгруппа МО).
2. Не все большие данные требуют применения ИИ
ИИ может помочь в проведении анализа, но он не обязательно нужен для того, чтобы извлечь из больших данных значимые выводы. «Организации в течение многих лет задействовали углубленную аналитику. Все зависит от объема и количества различных наборов данных, которые необходимо проанализировать, — сказал директор по когнитивной автоматизации и инновациям ISG Уэйн Баттерфилд, — Подобрать содержательные паттерны в огромных наборах данных за разумный промежуток времени не под силу даже величайшим в мире умам, поэтому переложить эту тяжелую работу на МО представляется разумным решением, но при этом не все наборы — огромные или отличаются особым разнообразием, и, следовательно, необходимость в МО не столь уж очевидна». ИТ-департаменты могут также применять для анализа и визуализации аналитических данных BI-решения, аналитику и предметно-ориентированные информационные база данных.
3. Углубленная аналитика и ИИ — это не одно и то же
Очень часто термин «большие данные» применяется для того, чтобы подать углубленный анализ информационных активов в более глубоком контексте. С одной стороны, в глазах профессионалов это нормально, но с другой, у неподготовленных людей могут возникнуть ошибочные ассоциации — они могут подумать, что углубленная аналитика и ИИ — взаимозаменяемые терминами. «Несмотря на то, что ИИ и расширенная аналитика тесно связаны, между ними есть ключевые различия, — говорит Бернет. — Например, ИИ умеет проверять предположения, самостоятельно учиться и совершенствовать свой анализ. Аналитические решения умеют анализировать данные, но они не могут самообучаться, и чтобы настроить параметры их работы, без вмешательства людей не обойтись».
4. Большие данные могут искажать ИИ-модели
«Большие данные создают основу для ИИ и МО. Чем больше данных — тем лучше будут модели, — поведал Франко из Talend. — Но при отсутствии должного контроля они могут привносить в выводы ИИ и МО элемент предвзятости». Одной из причин этого может являться акцент на количестве, а не на качестве данных. «ИИ и МО неизбежно потерпят неудачу, если люди не смогут контролировать исходные данные. Стекание огромных объемов информации в озеро данных не является достаточным основанием, гарантирующим успех этих технологий», — добавил он.
5. Организации уже связывают ИИ и большие данные, но даже не подозревают этого
«На рынке уже встречаются программные решения с встроенными ИИ-возможностями, подготовленные к установке, обучению и применению, — утверждает Бернет, имея в виду IDP-решения (Intelligent Document Processing, интеллектуальное ПО для обработки документов). — Они ускоряют внедрение ИИ и помогают организациям решать конкретные бизнес-задачи». Это как раз тот случай, когда пользователи получают выгоды без того, чтобы вникать в сложную науку об ИИ.
6. Комбинирование больших данных и ИИ невозможно без участия человека
Надежность и прозрачность — ключевые факторы в точке пересечения больших данных и ИИ. «Чтобы научить ИИ делать правильные выводы, ему нужно опираться на основу в виде надежных данных, — сказал Франко. — Это значит, что вам нужно ввести в цикл управления ими человека, что позволит взять под контроль их качество, репрезентативность, конфиденциальность и алгоритмы (применяйте объяснимый ИИ, чтобы можно было понять внутреннюю работу алгоритмов)».
7. ИИ полагается не на все данные
«Чтобы обеспечить работоспособность ИИ и получить значимые выводы, нужно выдержать точный баланс между данными, часть из которых должны быть правильными и надежными, — говорит Баттерфилд. — ИИ — не панацея для каждой проблемы, по крайней мере пока что, и он не может создать что-то из ничего. Лидеры бизнеса должны знать об этом».