KDD против Data mining
KDD (Знание знаний в базах данных) - это область компьютерных наук, которая включает в себя инструменты и теории, помогающие людям извлекать полезную и ранее неизвестную информацию (т.е. знания) из больших коллекций оцифрованных данных. KDD состоит из нескольких этапов, и Data Mining является одним из них. Data Mining - это применение определенного алгоритма для извлечения шаблонов из данных. Тем не менее, KDD и Data Mining используются взаимозаменяемо.
Что такое КДД?
Как упоминалось выше, KDD - это область компьютерных наук, которая занимается извлечением ранее неизвестной и интересной информации из необработанных данных. KDD - это целый процесс попыток разобраться в данных путем разработки соответствующих методов или приемов. Этот процесс связан с отображением низкоуровневых данных в другие формы, которые являются более компактными, абстрактными и полезными. Это достигается путем создания коротких отчетов, моделирования процесса генерации данных и разработки прогнозных моделей, которые могут прогнозировать будущие случаи. Из-за экспоненциального роста данных, особенно в таких областях, как бизнес, KDD стал очень важным процессом для преобразования этого огромного количества данных в бизнес-аналитику, поскольку ручное извлечение шаблонов стало, по-видимому, невозможным в последние несколько десятилетий. Например, в настоящее время он используется для различных приложений, таких как анализ социальных сетей, обнаружение мошенничества, наука, инвестиции, производство, телекоммуникации, очистка данных, спорт, поиск информации и в основном для маркетинга. KDD обычно используется для ответов на такие вопросы, как основные продукты, которые могут помочь получить высокую прибыль в следующем году в Wal-Mart? Этот процесс состоит из нескольких этапов. Он начинается с разработки понимания предметной области приложения и цели, а затем создания целевого набора данных. Затем следует очистка, предварительная обработка, сокращение и проекция данных. Следующим шагом является использование Data Mining (объяснено ниже) для определения шаблона. Наконец, обнаруженные знания объединяются путем визуализации и / или интерпретации.
Что такое Data Mining?
Как упоминалось выше, Data Mining - это только шаг в общем процессе KDD. Существует две основные цели Data Mining, которые определены целью приложения, а именно проверка или обнаружение. Верификация проверяет гипотезу пользователя о данных, в то время как обнаружение автоматически находит интересные шаблоны. Существует четыре основных задачи интеллектуального анализа данных: кластеризация, классификация, регрессия и ассоциация (суммирование). Кластеризация - это выявление похожих групп из неструктурированных данных. Классификация - это правила обучения, которые можно применять к новым данным. Регрессия - это поиск функций с минимальной ошибкой для данных модели. И ассоциация ищет отношения между переменными. Затем необходимо выбрать конкретный алгоритм интеллектуального анализа данных. В зависимости от цели могут быть выбраны разные алгоритмы, такие как линейная регрессия, логистическая регрессия, деревья решений и наивный байесовский алгоритм. Затем ищутся образцы интереса в одной или нескольких репрезентативных формах. Наконец, модели оцениваются с использованием прогнозирующей точности или понятности.
В чем разница между KDD и Data mining?
Хотя два термина KDD и Data Mining широко используются взаимозаменяемо, они относятся к двум связанным, но слегка отличающимся друг от друга понятиям. KDD - это общий процесс извлечения знаний из данных, в то время как Data Mining - это шаг внутри процесса KDD, который занимается выявлением закономерностей в данных. Другими словами, Data Mining - это только применение определенного алгоритма, основанного на общей цели процесса KDD..