|
||||||||
|
|
Что такое Data MiningПодготовлено: по материалам зарубежных сайтов Data Mining (Интеллектуальный анализ данных1) - это технология выявления скрытых взаимосвязей внутри больших баз данных. Многие компании годами накапливают важную бизнес-информацию, надеясь, что она поможет им в принятии решений. И, казалось бы, извлечь факты из базы данных - допустим, выяснить, что в какой-то конкретный день и время клиент заказал товар X в магазине 123 - не так уж сложно. Однако здесь нужны не факты сами по себе, а знания - знания о том, что, например, магазины 123 и 130 продают товара X на 30% больше, чем другие точки. В общем, чем специфичнее информация, тем полезнее она для принятия решений. Таким образом, Data Mining (DM) и есть процесс обнаружения подобного рода полезных знаний о бизнесе. Для чего применяется Data MiningData Mining может помочь предприятию точнее оценить свою работу. Рассмотрим один из методов - анализ потребительской корзины. Его применяют, чтобы выявить предпочтения потребителей и, соответственно, лучше удовлетворить спрос и повысить доход с клиентов. Однако характер покупательского поведения присутствует в данных неявно, и для его определения необходимо использовать именно Data Mining. И теперь можно выяснить, к примеру, что клиент, собирающийся купить товар X, будет не прочь приобрести заодно и товар Y. Эта информация ляжет в основу последующих решений: может быть, стоит располагать эти товары на витрине магазина рядом или, например, продвигать один из них, чтобы повысить продажи обоих. Приложения Data Mining применяются довольно широко в: розничной торговле, маркетинге, финансах, здравоохранении, промышленном производстве и других областях. Технологии, используемые в Data MiningВ основе большинства инструментов Data Mining лежат две технологии: машинное обучение и визуализация (визуальное представление информации). Качество визуализации определяется возможностями графического отображения значений данных. Варьирование графического представления путем изменения цветов, форм и других элементов упрощает выявление скрытых зависимостей. Эффективность методов машинного обучения в основном определяется их способностью исследовать большее количество взаимосвязей данных, чем может человек. Обе технологии дополняют друг друга в процессе осуществления "Data Mining"-анализа. Визуализация используется для поиска исключений, общих тенденций и зависимостей и помогает в извлечении данных на начальном этапе проекта. Машинное обучение используется позднее для поиска зависимостей в уже отлаженном проекте. Машинное обучение предполагает использование различных методов, например:
Деревья решений предназначены для классификации данных, они используют весовые коэффициенты для распределения элементов данных на всё более и более мелкие группы. Метод ассоциативных правил классифицирует данные на основе набора правил, подобных правилам в экспертных системах. Эти правила можно генерировать, используя процесс поиска и проверки комбинаций правил, или извлекать правила из деревьев решений. В нейронных сетях знания представлены в виде связей, соединяющих набор узлов. Сила связей определяет зависимости между факторами данных. В таблице 1 приведено краткое описание основных алгоритмов Data Mining.
Каждый из методов имеет свои преимущества и недостатки. Преимущество деревьев решений и ассоциативных правил состоит в их читабельности - они похожи на предложения на естественном языке. Однако при большом количестве факторов данных бывает очень сложно понять смысл такого представления. Недостаток: они не предназначены для широких числовых интервалов. Это связано с тем, что каждое правило или узел в дереве решений представляет одну связь (зависимость, отношение). Чтобы представить зависимости для большого интервала значений потребуется слишком много правил или узлов. Преимущество нейронных сетей в компактном представлении числовых отношений для широкого диапазона значений. А недостаток - в сложности интерпретации. Инструменты Data MiningСуществует широкий спектр инструментов для поддержки проектов Data Mining. К ним относятся как общедоступные алгоритмы визуализации и машинного обучения, так и сложные программные пакеты, где используются обе стратегии, работающие на параллельных процессорах. Стоимость последних может достигать нескольких сотен тысяч долларов. Поиск наилучшего инструмента для Data Mining решения зависит от ряда условий, таких как цель проекта (например, анализ потребительской корзины) и размер исследуемой базы данных. При выборе инструментов и алгоритмов очень важна гибкость, поскольку в зависимости от выбора стратегии может быть получен разный результат. Что требуется для создания Data Mining приложения?Чтобы разработать такой продукт, необходимо выполнить ряд шагов:
Цель первого прототипа проекта состоит в том, чтобы сократить количество ошибок в базе данных (имеются в виду первый, второй, третий и пятый этапы). Для осознания всех тонкостей исследуемых данных иногда требуется несколько итераций. Для более поздних прототипов важны третий, четвертый и пятый этапы. Также на распределение времени для Data Mining проекта влияют и другие факторы: тип конечного приложения, наличие и состояние Хранилища данных. Например, если взять приложение для прогнозирования продаж, то обнаруженные отношения между данными можно использовать до тех пор, пока не изменится деятельность компании. И наоборот, при анализе потребительской корзины компания обычно ищет все новые зависимости в данных. Для проекта прогнозирования сбыта больше времени придется потратить на первых трех этапах, а для анализа потребительской корзины - на последних трех. ЗаключениеМногие компании пытаются обрабатывать данные, сгенерированные при выполнении ежедневных операций. Вооружившись технологиями машинного обучения и визуализации можно среди такой в общем-то беспорядочной информации обнаружить довольно ценные, хорошо интерпретируемые взаимосвязи. Приложения Data Mining, построенные на этих технологиях, успешно применяются в различных областях, в том числе в розничной торговле и маркетинге, позволяя компаниям добывать информацию, дающую конкурентные преимущества.
1 Такой перевод точнее передает смысл термина "data mining", чем распространенная калька с английского - "добыча данных" (прим. переводчика). |
||||||||||||||||||||||||
ъБ УПДЕТЦБОЙЕ УФТБОЙГЩ ПФЧЕЮБЕФ зПОЮБТПЧБ н.о. ї лБЖЕДТБ урЙлв, 2002-2017 |