Когда машинное обучение встраивается в СУБД, организации получают расширенные возможности курирования данных за счет автоматизации контроля качества, гармонизации, усвоения и обогащения данных помимо решения других задач, часто весьма сложных, пишет портал eWeek на основе информации, предоставленной старшим менеджером продуктов компании MarkLogic Энтони Роачем.
Машинное обучение (МО) помогает организациям управлять заслуживающими доверия данными, позволяя создавать точные модели данных на основе огромных хранилищ, а затем формировать процессы, которые постоянно совершенствуются благодаря сообществу пользователей.
Однако проще сказать, чем сделать. Сегодня экосистема инструментов МО стала невероятно сложной. В организациях часто нет сотрудников, способных в ней ориентироваться. Кроме того, организации переживают трудные времена, когда они вынуждены доверять моделям МО, многие из которых работают по принципу «черного ящика».
Ниже приводятся восемь тезисов о современном состоянии МО и о том, как встраивание МО в платформу СУБД позволяет организациям быстро и интеллектуально внедрять инновации, основываясь на заслуживающих доверия данных и используя заслуживающие доверия методы их анализа.
1. Анализ данных, мягко говоря, представляет сложности
На протяжении нескольких лет мы слышим только о больших данных — как они восхитительны и как анализ огромных объемов данных позволит получать восхитительные знания, которые позволят бизнесу принимать более умные решения. Однако компании обнаружили, что восхищаться большими данными легко, а интеллектуально хранить и анализировать их независимо от уровня их достоверности — очень трудно.
2. МО может помочь
Как отмечалось выше, организациям достаточно легко собирать данные, накапливая их все больше и больше. Фокус в том, чтобы найти в них закономерности, для чего предназначено МО. Действительно, данные столь объемны и сложны, что очень трудно обнаружить в них закономерности и сложные взаимосвязи, на основе которых можно было бы сформулировать правила для системы. Но для современных инструментов МО все это легко и просто. А поскольку поведение моделей меняется по мере накопления опыта, эти инструменты способны совершенствовать свое поведение, превращая обучение в машинное.
3. МО качественно настолько, насколько качественны данные
Учитывая сказанное выше, понятно, что важен не только объем данных, но также их качество и соответствие цели, для которой они предназначены. Хорошие данные имеют важнейшее значение, поскольку МО крайне чувствительно к качеству данных или к его отсутствию. Задумайтесь вот над чем: вы используете одни и те же данные, чтобы и обучать модель, и использовать ее. Любые проблемы с качеством данных усугубятся. И, как мы знаем, особенности даже одной сущности могут распространиться по множеству систем организации. Если инструмент МО не способен выявить тенденцию по той причине, что какие-то данные находятся в изолированной системе, ценность МО значительно снизится.
4. Экономический эффект вложений в МО может быть незначительным
Действительно, несмотря на нынешний большой шум вокруг МО, инвестиции в ИИ и МО часто дают очень низкую отдачу. Тому есть несколько причин, но одна из основных в том, что организации нередко не доверяют «черным ящикам» моделей МО. Если нет доверия, то пусть даже результат верен, вы не будете руководствоваться им при принятии важного решения. Дело усугубляется тем, что экосистема инструментов МО невероятно сложна. Поэтому компаниям трудно включить МО в контекст защищенных и управляемых операций. Кроме того, нелегко найти специалистов, обладающих необходимыми навыками создания и обслуживания систем.
5. Для максимальной эффективности следует приближать алгоритмы к данным, а не наоборот
Вы часто слышите, что средства защиты должны быть встроенными, а не внешними. Это применимо и к МО. Эффективность МО возрастает благодаря близости к данным. Предпочтительной является модель хаба данных, где можно защищать данные, управлять ими и курировать их. При таком подходе к обеспечению достоверности данных организации могут преодолеть множество трудностей, с которыми они сталкиваются, стремясь к управляемости и достоверности данных, и при этом более эффективно и уверенно использовать преимущества МО.
6. Встроенное МО может улучшить работу СУБД
Встроенное МО повышает качество данных и достоверность моделей данных, а также позволяет СУБД функционировать более эффективно. Такое применение технологии МО еще разрабатывается, но мониторинг шаблонов задач и планов доступа, а также производительности могут быть улучшены с помощью автоматической подстройки системы. Кроме того, при использовании МО СУБД способна более эффективно разрабатывать модели инфраструктуры под шаблонные задачи и управлять ими. Например, речь может идти об автоматической корректировке правил, управляющих изменением соотношения объемов данных и индексов.
7. Встроенное МО расширяет возможности курирования данных в организации
Когда МО встроено в СУБД, организации могут улучшить курирование данных посредством автоматизации контроля качества, гармонизации, овладения данными и их обогащения, а также многих других, нередко сложных задач. Организации могут даже дополнить имеющиеся процессы овладения, основанные на правилах, чтобы повысить точность и управлять исключениями. Далее, МО можно использовать на этапе моделирования для идентификации, например, персональных данных и совершенствования алгоритмов с целью повышения их точности и сокращения вмешательства человека в их работу. МО может также помочь при классификации атрибутов и предлагать правила картирования и моделирования. Важно, что эти модели проходят непрерывное обучение, поэтому со временем они становятся «умнее».
8. Встроенное МО может повысить эффективность работы специалистов по данным
Специалисты по данным тратят чрезмерно много времени на споры о данных. Согласно статье в New York Times, 80% своего времени они расходуют на создание больших наборов данных для обучения моделей. Когда МО встроено в платформу СУБД, они освобождаются от значительной части этой работы и могут уделять больше времени обучению и применению моделей.
МО и ИИ уже не являются научной фантастикой. Сейчас эти технологии ежедневно используются в самых различных сценариях. Однако это не означает, что возможности МО используются полностью или что оно доступно организациям любого типа и размера. Когда МО встраивается на уровне СУБД, оно в значительной мере утрачивает сложность, позволяя компаниям добраться до истины, содержащейся в данных, и в полной мере пожинать плоды МО.