На протяжении многих лет многочисленные системы классификаторов, также называемые ансамблевыми системами, были популярной темой исследований и пользовались все большим вниманием в сообществе вычислительного интеллекта и машинного обучения. Он привлек интерес ученых из нескольких областей, включая машинное обучение, статистику, распознавание образов и обнаружение знаний в базах данных. Со временем методы ансамбля зарекомендовали себя как очень эффективные и универсальные в широком спектре проблемных областей и реальных приложений. Первоначально разработанные для уменьшения различий в автоматизированной системе принятия решений, с тех пор ансамблевые методы использовались для решения различных проблем машинного обучения. Мы представляем обзор двух наиболее известных ансамблевых алгоритмов - Bagging и Random Forest - и затем обсуждаем различия между этими двумя.
Было показано, что во многих случаях использование мешков, в которых используется выборка при начальной загрузке, классификационное прядение имеет более высокую точность, чем одно классификационное дерево. Пакетирование - один из самых старых и простых алгоритмов на основе ансамбля, который можно применять к алгоритмам на основе дерева для повышения точности прогнозов. Существует еще одна улучшенная версия пакетирования, называемая алгоритмом Random Forest, который по сути представляет собой ансамбль деревьев решений, обученных с помощью механизма пакетирования. Давайте посмотрим, как работает алгоритм случайного леса и чем он отличается от использования в моделях ансамблей.
Агрегация начальной загрузки, также известная как пакетирование, является одним из самых ранних и простых алгоритмов, основанных на ансамбле, для повышения устойчивости деревьев решений и повышения производительности. Концепция, стоящая за упаковкой, состоит в том, чтобы объединить предсказания нескольких базовых учеников, чтобы получить более точный результат. Лео Брейман представил алгоритм пакетирования в 1994 году. Он показал, что агрегация начальной загрузки может принести желаемые результаты в нестабильных алгоритмах обучения, где небольшие изменения в обучающих данных могут вызвать большие различия в предсказаниях. Начальная загрузка - это выборка набора данных с заменой, и каждая выборка генерируется путем равномерной выборки обучающего набора размера m, пока не будет получен новый набор с m экземплярами..
Случайный лес - это контролируемый алгоритм машинного обучения, основанный на ансамблевом обучении и эволюции оригинального алгоритма Бреймана. Это большое улучшение по сравнению с пакетными деревьями решений, позволяющими создавать несколько деревьев решений и объединять их для получения точного результата. Брейман добавил дополнительную случайную вариацию в процедуру упаковки, создавая большее разнообразие среди полученных моделей. Случайные леса отличаются от деревьев в мешках, вынуждая дерево использовать только подмножество его доступных предикторов для разделения на фазе роста. Все деревья решений, составляющие случайный лес, различны, потому что каждое дерево построено на разных случайных подмножествах данных. Поскольку это сводит к минимуму переоснащение, оно имеет тенденцию быть более точным, чем одно дерево решений.
- И мешки, и случайные леса - это основанные на ансамбле алгоритмы, цель которых - уменьшить сложность моделей, превосходящих обучающие данные. Агрегирование начальной загрузки, также называемое упаковкой в пакеты, является одним из старейших и мощных ансамблевых методов предотвращения переоснащения. Это мета-метод, который использует несколько классификаторов для повышения точности прогнозирования. Упаковка в пакеты просто означает выбор случайных образцов из обучающего образца для замены, чтобы получить множество различных моделей. Случайный лес - это контролируемый алгоритм машинного обучения, основанный на ансамблевом обучении и эволюции оригинального алгоритма Бреймана.
- Концепция начальной загрузки (создания пакетов) состоит в том, чтобы обучить множество необработанных деревьев решений на различных случайных подмножествах обучающих данных, выбирая с заменой, чтобы уменьшить дисперсию деревьев решений. Идея состоит в том, чтобы объединить прогнозы нескольких базовых учеников, чтобы создать более точный результат. В случае случайных лесов в процедуру расфасовки добавляется дополнительная случайная вариация для создания большего разнообразия среди полученных моделей. Идея случайных лесов состоит в том, чтобы построить несколько деревьев решений и объединить их, чтобы получить точный результат.
- Деревья в мешках и случайные леса являются наиболее распространенными инструментами обучения ансамбля, используемыми для решения различных проблем машинного обучения. Образец начальной загрузки - это мета-алгоритм, предназначенный для повышения точности и стабильности моделей машинного обучения с использованием ансамблевого обучения и снижения сложности переоснащения моделей. Алгоритм случайного леса очень устойчив к переоснащению и хорош с несбалансированными и отсутствующими данными. Это также предпочтительный выбор алгоритма для построения прогностических моделей. Цель состоит в том, чтобы уменьшить дисперсию путем усреднения множества глубоких деревьев решений, обученных на различных выборках данных.
Деревья в мешках и случайные леса являются наиболее распространенными инструментами обучения ансамбля, используемыми для решения различных проблем машинного обучения. Пакетирование - один из самых старых и простых алгоритмов на основе ансамбля, который можно применять к алгоритмам на основе дерева для повышения точности прогнозов. Случайные леса, с другой стороны, представляют собой контролируемый алгоритм машинного обучения и улучшенную версию начальной модели выборки, используемой для задач регрессии и классификации. Идея случайного леса состоит в том, чтобы построить несколько деревьев решений и объединить их для получения точного результата. Случайный лес имеет тенденцию быть более точным, чем одно дерево решений, потому что сводит к минимуму переоснащение.