Data Mining против OLAP
Как интеллектуальный анализ данных, так и OLAP являются двумя из распространенных технологий бизнес-аналитики (BI). Бизнес-аналитика относится к компьютерным методам идентификации и извлечения полезной информации из бизнес-данных. Интеллектуальный анализ данных - это область компьютерных наук, которая занимается извлечением интересных шаблонов из больших наборов данных. Он сочетает в себе множество методов из искусственного интеллекта, статистики и управления базами данных. OLAP (онлайн-аналитическая обработка), как следует из названия, представляет собой компиляцию способов запроса многомерных баз данных.
Интеллектуальный анализ данных также известен как «Обнаружение знаний в данных» (KDD). Как уже упоминалось выше, это область компьютерных наук, которая занимается извлечением ранее неизвестной и интересной информации из необработанных данных. Из-за экспоненциального роста данных, особенно в таких областях, как бизнес, интеллектуальный анализ данных стал очень важным инструментом для преобразования этого огромного количества данных в бизнес-аналитику, поскольку ручное извлечение шаблонов стало, по-видимому, невозможным в последние несколько десятилетий. Например, в настоящее время он используется для различных приложений, таких как анализ социальных сетей, обнаружение мошенничества и маркетинг. Интеллектуальный анализ данных обычно решает следующие четыре задачи: кластеризация, классификация, регрессия и ассоциация. Кластеризация - это выявление похожих групп из неструктурированных данных. Классификация - это правила обучения, которые могут применяться к новым данным и, как правило, включают следующие этапы: предварительная обработка данных, проектирование моделирования, обучение / выбор характеристик и оценка / проверка. Регрессия - это поиск функций с минимальной ошибкой для данных модели. И ассоциация ищет отношения между переменными. Интеллектуальный анализ данных обычно используется для ответов на такие вопросы, как основные продукты, которые могут помочь получить высокую прибыль в следующем году в Wal-Mart.
OLAP - это класс систем, которые предоставляют ответы на многомерные запросы. Обычно OLAP используется для маркетинга, бюджетирования, прогнозирования и аналогичных приложений. Само собой разумеется, что базы данных, используемые для OLAP, настроены для сложных и специальных запросов с высокой производительностью. Обычно для отображения выходных данных OLAP используется матрица. Строки и столбцы формируются размерами запроса. Они часто используют методы агрегирования по нескольким таблицам для получения сводок. Например, его можно использовать, чтобы узнать о продажах этого года в Wal-Mart по сравнению с прошлым годом? Каков прогноз по продажам в следующем квартале? Что можно сказать о тренде, посмотрев на процентное изменение?
Хотя очевидно, что Data Mining и OLAP схожи, поскольку они работают с данными для получения интеллектуальных данных, основное отличие заключается в том, как они работают с данными. Инструменты OLAP обеспечивают многомерный анализ данных и предоставляют сводные данные, но, напротив, интеллектуальный анализ данных фокусируется на соотношениях, шаблонах и влияниях в наборе данных. Это OLAP-сделка с агрегацией, которая сводится к работе с данными посредством «сложения», но интеллектуальный анализ данных соответствует «делению». Другое заметное отличие состоит в том, что, хотя инструменты интеллектуального анализа данных моделируют данные и возвращают действующие правила, OLAP будет проводить методы сравнения и контрастирования в рамках бизнес-измерения в режиме реального времени..