|
||||||||
|
|
Средства исследования данных в SQL Server 2000
Барри де Виль, SQL Magazine OnLine #02/2001 Золотые прииски данных ждут своих старателей. Часть первая - истоки и
основы подхода.
Термином исследование данных, Data Mining, (он еще не вполне
прижился в русском языке) принято обозначать компьютерную реализацию извечной
человеческой деятельности. Этот процесс заключается в применении
автоматизированных методов для выявления тенденций, структур и взаимосвязей, скрытых
в накопленных электронных данных. Исследование данных или извлечение знаний,
как иногда называют этот процесс, позволяет задействовать собранные в масштабах
предприятия данные для поиска более эффективных способов получения прибыли,
экономии средств, повышения качества продукции и уровня обслуживания
заказчиков. С выходом версии SQL Server 7.0 осенью 1998 года корпорация Microsoft
впервые открыто вступила в перспективную область поддержки принятия решений и
бизнес-интеллекта (Business Intelligence, BI). Входящие в состав SQL Server 7.0
средства OLAP Services обеспечили простоту доступа к многомерным кубам данных,
гибкость в обращении с запросами и манипулировании информацией в этих кубах, а
также широкий спектр аналитических возможностей OLAP. В выпущенной осенью 2000
года версии SQL Server 2000 в состав OLAP Services введены алгоритмы
исследования данных. Такое расширение возможностей привело к переименованию
OLAP Services в Analysis Services. Истоки Data Mining
Чтобы исследовать данные, необходимо сначала получить доступ к ним. Поэтому
тот факт, что развитие средств исследования данных совпало с появлением
хранилищ данных - не случайность. По мере роста мощности компьютеров и объема
сведений, накопленных в базах данных к концу 90-х годов, люди стали замечать,
что данные - это не просто нечто пассивное, пригодное только для выписки счетов
и ввода заказов. Оказывается, данные способны играть гораздо более важную роль
в развитии бизнеса, выполняя в ходе прогнозирования функции фактографического
базиса. Эта идея привела к возникновению новой категории вычислительных систем,
которые выходили за пределы исполнения операционных функций бизнеса (в отличие
от ранних компьютерных приложений, которые только этим и занимались) и
переходили в высшую сферу анализа бизнеса. Эти новые системы иногда назывались
системами поддержки принятия решений, иногда - информационными системами для
руководства (Executive Information Systems, EIS). При проектировании таких
систем их создатели стремились как можно полнее использовать растущую мощь
компьютеров и усовершенствованный графический интерфейс, чтобы обеспечить
формирование нерегламентированных аналитических отчетов, позволяющих получать
всевозможные срезы данных и анализировать их произвольным образом, то есть
выйти далеко за рамки прежних статических отчетов. Возможности получения
всевозможных проекций данных, реализация многоуровневых иерархических систем
детализации и обобщения данных, позволяющих как покопаться в мельчайших
деталях, так и увидеть картину в целом, бросив взгляд с высоты птичьего полета,
- все это требовало новых способов организации данных. Новые потребности
привели к появлению хранилищ данных. Термин хранилища данных в 1990 году был практически
неизвестен. Спустя десять лет хранилища данных превратились в отрасль бизнеса с
доходами, которые исчислялись многими миллиардами долларов. Основу этого
бизнеса составляет сбор и организация данных в целях создания
специализированной среды, используемой для решения задач анализа и
прогнозирования развития бизнеса, которые в корне отличаются от обыденных
операционных задач. В ходе становления и развития хранилищ данных, вопросы
поддержки принятия решений и EIS уступили место более глобальным концепциям
бизнес-интеллекта (BI) и исследования данных (DM). Бизнес-интеллект предполагает такую организацию данных с применением
различных потенциальных размерностей, которая позволяет выполнять перекрестные
ссылки и представлять зависимости одних данных, скажем, итогов продаж, от
любого числа других потенциальных размерностей, к примеру, от региона или
семейства продуктов. Возможность перемещаться по размерностям вверх и вниз
позволяет как детализировать, так и обобщать данные для получения общего
обзора. Способность показывать изменение данных в зависимости от различных
размерностей, и часто от нескольких размерностей одновременно, обеспечивает
создание в масштабе реального времени многомерных отчетов. Этот общий подход к
манипулированию данными стал известен как аналитическая обработка в реальном
времени, OLAP (online analytical processing), то есть обработка данных с целью
получения аналитических, а не операционных результатов. Термин online
здесь означает, что аналитические данные доступны постоянно, их можно сразу
получить в качестве ответа на посланный запрос, точно так же, как формируются
отклики в любой системе реального времени. OLAP использует преимущества
хранилищ данных, обеспечивая постоянную доступность данных в форме, пригодной
для решения аналитических задач поддержки принятия решений. Отличительными
чертами OLAP являются выполнение предварительной обработки данных, построение
индексов и хранение данных в многомерных базах данных, что позволяет быстро
предоставлять пользователю различные многомерные представления. Однако инструментальные средства OLAP могут не найти все структурные
взаимосвязи и зависимости, которые существуют в данных. Кубы OLAP позволяют
провести исследования данных в ограниченном объеме, включая анализ основных
изменений показателей бизнеса в зависимости от жизненно важных и известных
размерностей. Однако при изменении размерностей в ходе эволюции бизнеса или при
исследовании непредвиденных ситуаций исследование данных может стать
исключительно гибким и мощным дополнением к OLAP. Решения DM прекрасно подходят
для просеивания сотен конкурирующих между собой потенциально полезных
размерностей и их комбинаций и отбора лучших вариантов для анализа. Все
алгоритмы исследования данных обладают встроенными механизмами,
предназначенными для анализа колоссального количества возможных закономерностей
в данных и для сжатия результатов до объема простого итогового отчета. Подходы
к формированию отчетов, применяемые в BI OLAP и в DM, прекрасно дополняют друг
друга и вполне синергичны при совместном использовании, то есть отличаются
согласованным взаимодействием. Специалисты Microsoft осознали этот синергизм,
когда выпустили SQL Server 7.0 и приступили к разработке средств исследования
данных для SQL Server 2000. Наиболее популярными способами исследования данных являются деревья принятия
решений, нейронные сети, кластерный анализ и регрессия. В ходе подготовки к
выпуску SQL Server 2000 и Commerce Server специалисты компании Microsoft
создали надежную инфраструктуру для исследования данных и ключевые алгоритмы
для решения задач кластерного анализа и построения деревьев принятия решений. В
качестве части инфраструктуры проведения исследования данных выступает
разработанная в Microsoft спецификация OLE DB for Data Mining. Она представляет
собой расширение OLE DB for OLAP, где определяется инфраструктура исследования
данных и интерфейсы СОМ, которые демонстрируют аналитикам, занимающимся
исследованием данных, модели и алгоритмы DM. OLE DB for Data Mining служит
стандартом, который производители средств DM могут использовать в своих
разработках с целью интеграции их в среду Microsoft. Подход к разработке приложений для исследования данных
В корпорации Microsoft была создана группа под названием Data Mining and
Exploration, которая занималась разработкой алгоритмов исследования данных для
SQL Server 2000. Входящие в ее состав специалисты формулируют цель исследования
данных как <выявление скрытых структур>. В соответствии с предложенным группой
определением, такие структуры проявляются в виде закономерностей, которые можно
обнаружить через взаимосвязи или корреляцию данных. Корреляции образуют
своеобразные шаблоны или ассоциации, которые отражают скрытую структуру данных.
Таким образом, группа понимает суть исследования данных как поиск существующих
шаблонов. В результате погружения такого шаблона в контекст бизнеса можно не только
получить модель этого бизнеса, но также может возрасти его эффективность. Принятая группой Data Mining and Exploration модель исследования данных
состоит в том, чтобы доставлять индикаторы существования шаблонов данных через
расширения процесса запроса данных. При конструировании традиционного запроса
указываются конкретные информационные поля в базе данных, откуда надо взять
сведения, и задается способ агрегирования этих полей. Применяемый в DM запрос
отличается от традиционного запроса так же, как и модель исследования данных
отличается от таблицы традиционной базы данных. В запросе DM указывается
вопрос, который надо исследовать, например, отвечает ли валовая выручка от
продажи предложению целевого маркетинга. Процессор запросов DM возвращает запросившей
станции ответ в форме структурной модели, которая отвечает на заданный вопрос. Центральным объектом внедрения инструментария DM в SQL Server 2000 является
модель исследования данных. Специалисты группы Data Mining and Exploration
создали несколько мастеров обработки запросов DM, призванных облегчить процесс
создания и применения модели исследования данных. В результате при создании
запросов DM пользователям нет необходимости применять специальный синтаксис.
Спецификация OLE DB for Data Mining обеспечивает интерфейс СОМ, доступ к
которому можно осуществлять непосредственно из клиентского приложения. Таким
образом, как конечные пользователи, так и приложения, разработанные
независимыми компаниями, могут получать доступ к средствам исследования данных непосредственно
через процессор запросов. В листинге 1 приведен запрос, демонстрирующий, как
создать модель DM для предсказания и классификации возраста заказчика, исходя
из таких атрибутов данных, как пол заказчика, а также название, тип и
количество купленного товара. ЛИСТИНГ 1: Запрос, который создает DM-модель для исследования данных. CREATE MINING MODEL [Age Prediction] ( [Customer ID] LONG KEY, [Gender] TEXT DISCRETE, [Age] DOUBLE DISCRETIZED() PREDICT, [Product Purchases] TABLE ( [Product Name] TEXT KEY, [Quantity] DOUBLE NORMAL CONTINUOUS, [Product Type] TEXT DISCRETE RELATED TO [Product Name] ) ) USING [Decision Trees] В этом примере использовано предложение CREATE, аналогичное предложению
CREATE TABLE. Полное описание языка создания модели DM и манипулирования
моделью содержится в спецификации OLE DB for Data Mining, которую можно найти
по адресу http://www.olap.ru/www.microsoft.com/data/oledb.
Хотя основным механизмом доступа к процессору запросов DM в SQL Server 2000
является интерфейс с использованием мастеров, приложения, разработанные
клиентами и партнерами Microsoft, могут получить доступ к нему также при помощи
командного объекта OLE DB. После того как будет завершено построение модели для
исследования данных (либо при помощи мастеров, либо напрямую), модель
помещается на хранение в иерархию объектов в каталоге Analysis Services.
Существующие в данных и выявленные средствами DM шаблоны хранятся в итоговой
форме вместе с размерностями, моделями и взаимосвязями, так что потенциал
данных для прогнозирования и классификации будет постоянно наращиваться,
независимо от того, что произойдет с исходными данными уровня строк, на которых
базируется модель DM. Группа Data Mining and Exploration при разработке Analysis Services для SQL
Server 2000 придерживалась трех основополагающих стратегий: самообслуживания,
интеграции средств OLAP и DM, а также универсального доступа к данным -
Universal Data Access (UDA). Стратегия самообслуживания реализована в виде
мастеров, которые помогают пользователям выполнить все шаги, необходимые для
создания и применения моделей DM. В целях интеграции метафор OLAP и DM группа
решила, что для доставки пользователю результатов обработки любого запроса,
будь то запрос OLAP, или же запрос DM, должен применяться единый механизм
доставки, использующий единый интерфейс. В стандарте OLE DB for Data Mining содержится идея универсального механизма
доступа к данным, который позволит разнородным средам с множеством приложений
совместно использовать данные и результаты их исследования. Специалисты
Microsoft разработали интерфейс OLE DB для табличных источников данных, затем
расширили его для OLAP, создав интерфейс OLE DB for OLAP, вошедший в состав SQL
Server 7.0. Наконец, в SQL Server 2000 этот интерфейс был расширен для
исследования данных и получил название OLE DB for Data Mining. С помощью OLE DB
for Data Mining можно исследовать как реляционные источники данных, так и
многомерные, поскольку для этого применяется одна и та же инфраструктура OLE
DB. Таким образом, подходы OLE DB for OLAP и OLE DB for Data Mining служат
отражением трех аспектов единой проблемы: разнородного доступа к данным,
разделяемой среды хранения запросов DM и запросов к многомерным базам данных, а
также общего интерфейса для запросов OLAP и DM. В дополнение к возможностям исследования данных, в SQL Server 2000
представлены расширения основных функциональных возможностей SQL Server.
Создавать модель исследования данных можно как на основе реляционных источников
данных (стандартных таблиц), так и на базе многомерных кубов данных. Корпорация
Microsoft расширила стандарт доступа к данным OLE DB для создания обобщенных
механизмов доступа к данным, включающих поддержку реляционных и многомерных
источников, равно как и возможностей исследования данных, предлагаемых
независимыми компаниями. В состав Analysis Manager входит несколько новых
мастеров, призванных облегчить взаимодействие с моделями исследования данных.
Спецификация OLE DB for Data Mining позволяет осуществлять взаимодействие
программным путем. SQL Server хранит модели исследования данных в виде объектов
поддержки принятия решений, Decision Support Objects (DSO), то есть в таком же
виде, в каком хранятся и многомерные кубы данных. Это позволяет задействовать
один и тот же интерфейс для обслуживания и запросов OLAP, и запросов DM. Интерфейс OLE DB for Data Mining
OLE DB for Data Mining поддерживает наиболее популярные алгоритмы
исследования данных. Применяя OLE DB for Data Mining, приложения исследования
данных могут заглянуть в любой табличный источник данных через поставщика OLE
DB, так что исследование данных можно приводить непосредственно в реляционной
базе данных. Чтобы заполнить пробел между традиционной технологией исследования
данных и современными реляционными системами управления базами данных
(РелСУБД), OLE DB for Data Mining применяет новые концепции и свойства,
включая: Модель исследования данных. Модель исследования данных подобна
реляционным таблицам за исключением того, что она содержит специальные столбцы,
которые используются для выявления шаблонов и взаимозависимостей, которые
характеризуют виды открытий, производимых в ходе исследования данных. К таким
открытиям относятся, например, виды предложений, обусловливающих успех продаж,
или же характеристики людей, отвечающих предложениям целевого маркетинга. Эти
же столбцы можно использовать для прогнозирования, при этом модель DM выполняет
двоякие функции: помогает создавать модель для прогнозирования и выполняет сам
процесс построения прогноза. В отличие от стандартной таблицы, которая хранит
<сырые> данные, модель DM хранит шаблоны, выявленные алгоритмом исследования
данных. Для создания моделей DM применяется предложение CREATE, очень похожее
на предложение CREATE TABLE языка SQL. Для наполнения модели DM используется
предложение INSERT INTO, так же как и для наполнения обычной таблицы. Чтобы
выполнить прогнозирование при помощи модели DM, клиентское приложение запускает
предложение SELECT. Прогноз подобен запросу потому, что в результирующем наборе
показываются важные заданные поля, такие как объем продаж или вероятность
отклика на предложение. После того как процессор DM определит важные поля и
сохранит их в модели DM, модель сможет применять тот же самый шаблон и для
классификации новых данных, результаты которых не известны. Процесс
идентификации важных полей, которые образуют шаблон прогноза, называется настройкой
или обучением (training). Именно такой настроенный шаблон и
сохраняется в модели DM. OLE DB for Data Mining представляет собой расширение OLE DB, которое
позволяет клиентским приложениям для исследования данных пользоваться услугами
DM, предоставляемыми целым рядом поставщиков. OLE DB for Data Mining обращается
с моделями DM как с таблицами специального вида. Когда необходимо ввести в эту
таблицу данные, их сначала обрабатывает алгоритм DM, после чего процессор
запросов к модели DM помещает в таблицу не сами данные, а полученную в
результате выполненной обработки модель DM. Теперь можно просмотреть
сохраненную модель DM, очистить ее или же использовать для прогнозирования. Наборы строк схемы OLE DB for Data Mining. Эти наборы строк схемы имеют специальное назначение. Они позволяют
приложениям потребителей находить ключевую информацию, например, о доступных
услугах DM, о моделях и столбцах для исследования данных, о содержимом моделей.
Наборы строк схемы наполняются как при помощи Analysis Manager, входящего в
состав Analysis Services для SQL Server 2000, так и средствами других поставщиков
услуг исследования данных. Наполнение происходит на этапе создания модели,
когда выполняется поиск шаблонов в данных. Этот процесс, называемый обучением
или настройкой, относится к анализу данных с целью выявления новых шаблонов.
Другими словами, наполнение наборов строк отражает тот факт, что модель DM
умеет распознавать шаблоны в новых источниках данных. Прогнозируемое соединение. В целях облегчения развертывания эта операция, которая аналогична операции
соединения в языке SQL, ставится в соответствие запросу, соединяющему модель DM
(содержащую шаблоны, полученные из исходных данных в процессе обучения и
настройки) и новые исходные данные. Такое отображение позволяет легко
прогнозировать результаты с учетом потребностей бизнеса. Язык разметки модели прогнозирования (PMML). Спецификация OLE DB for Data Mining включает в себя стандарты PMML,
выработанные группой Data Mining Group, DMG, (http://www.oasis-open.org/cover/pmml.html).
Эта спецификация предоставляет разработчикам открытый интерфейс для более
эффективной интеграции инструментов иследования данных с действующими
приложениями для бизнеса и электронной коммерции. Барри де Виль разработчик решений в области исследования
данных (Data Mining). Он создал дерево решений KnowledgeSEEKER. Барри является
менеджером по работе с клиентами (CRM) в SAS. В издательстве
Digital Press готовится к выходу в свет его
книга | ||||||||||
За содержание страницы отвечает Гончарова М.Н. © Кафедра СПиКБ, 2002-2017 |