Интеллектуальный анализ данных и хранение данных
Data Mining и Data Warehousing - это очень мощные и популярные методы анализа данных. Пользователи, склонные к статистике, используют Data Mining. Они используют статистические модели для поиска скрытых закономерностей в данных. Майнеры данных заинтересованы в нахождении полезных связей между различными элементами данных, что в конечном итоге выгодно для бизнеса. Но с другой стороны, эксперты по данным, которые могут анализировать аспекты бизнеса напрямую, склонны использовать хранилища данных.
Интеллектуальный анализ данных также известен как «Обнаружение знаний в данных» (KDD). Как уже упоминалось выше, это область компьютерных наук, которая занимается извлечением ранее неизвестной и интересной информации из необработанных данных. Из-за экспоненциального роста данных, особенно в таких областях, как бизнес, интеллектуальный анализ данных стал очень важным инструментом для преобразования этого огромного количества данных в бизнес-аналитику, поскольку ручное извлечение шаблонов стало, по-видимому, невозможным в последние несколько десятилетий. Например, в настоящее время он используется для различных приложений, таких как анализ социальных сетей, обнаружение мошенничества и маркетинг. Интеллектуальный анализ данных обычно решает следующие четыре задачи: кластеризация, классификация, регрессия и ассоциация. Кластеризация - это выявление похожих групп из неструктурированных данных. Классификация - это правила обучения, которые могут применяться к новым данным и, как правило, включают следующие этапы: предварительная обработка данных, проектирование моделирования, обучение / выбор характеристик и оценка / проверка. Регрессия - это поиск функций с минимальной ошибкой для данных модели. И ассоциация ищет отношения между переменными. Интеллектуальный анализ данных обычно используется для ответов на такие вопросы, как основные продукты, которые могут помочь получить высокую прибыль в следующем году в Wal-Mart?
Как упомянуто выше, хранилище данных также используется для анализа данных, но различными группами пользователей и с немного другой целью. Например, когда речь заходит о секторе розничной торговли, пользователи хранилищ данных больше заботятся о том, какие виды покупок пользуются популярностью среди покупателей, поэтому результаты анализа могут помочь покупателю, улучшив качество обслуживания клиентов. Но майнеры данных сначала выдвигают гипотезу о том, какие клиенты покупают определенный тип продукта, и анализируют данные, чтобы проверить гипотезу. Хранение данных может быть осуществлено крупным ритейлером, который первоначально заполняет свои магазины теми же размерами продуктов, чтобы потом выяснить, что магазины в Нью-Йорке продают товар меньшего размера гораздо быстрее, чем в чикагских магазинах. Таким образом, глядя на этот результат, ритейлер может снабдить магазин в Нью-Йорке меньшими размерами по сравнению с магазинами в Чикаго..
Итак, как вы можете ясно видеть, эти два типа анализа, по-видимому, имеют одинаковую природу невооруженным глазом. Оба действительно заботятся об увеличении прибыли, основанной на исторических данных. Но, конечно, есть ключевые различия. Проще говоря, Data Mining и Data Warehousing предназначены для предоставления различных видов аналитики, но определенно для разных типов пользователей. Другими словами, Data Mining ищет корреляции, шаблоны для поддержки статистической гипотезы. Но Data Warehousing отвечает на сравнительно более широкий вопрос и срезает и разбирает данные оттуда для выявления путей улучшения в будущем..