Определение процесса обучения
В википедии даётся следующее определение дисциплины "машинное обучение":
Машинное обучение (англ. Machine Learning) — обширный подраздел искусственного интеллекта, изучающий методы построения моделей, способных обучаться, и алгоритмов для их построения и обучения.
В английской версии даётся аналогичное определение:
Machine learning is a scientific discipline that explores the construction and study of algorithms that can learn from data.
В обоих случаях идёт ссылка к ключевому слову - обучение / learning. Формальное определение процессу обучения дал Tom M. Mitchell:
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
На это же определение ссылается Andrew Ng в курсе Machine Learning от Стэнфордского университета (полный курс можно найти на сайте Coursera).
Почему обучение возможно
Во второй лекции курса Learning From Data рассказывается про теоретические предпосылки того, почему процесс обучения вообще возможен. Допустим у нас есть набор тренировочных данных размера \(l\) состоящий из пар векторов значений входных переменной \(x_i\) и соответствующих значений бинарной целевой переменной \(y_i\) которую нужно предсказать для \(i > l\):
Далее, допустим что соответствие между входными значениями векторов \(x_i \in X\) и целевой переменной \(y_i \in Y\) устанавливается некой функцией \(F: X \rightarrow Y\), которая нам не известна. Тогда на основании чего мы предполагаем, что мы можем корректно (с какой-то небольшой погрешностью) предсказывать значение \(y\) в будующем? Ведь неизвестная нам функция \(F\), устанавливающая соответствие на \(X \rightarrow Y\) на исторических данных, теоретически может давать *абсолютно* любое значение \(y_i\) на не наблюдаемых ранее значениях вектора входных перемнных \(x_i, \: i> l\).
Эта проблема рассматривается в лекции сначала на простом примере. Допустим у нас есть корзина с красными и зелеными яблоками. Доля красных яблок \(\mu\) нам не известно. Но у нас есть небольшая выборка (тренировочные данные) яблок из карзины размера \(N\). Мы можем измерить долю красных яблок в ней \(\nu\). Процесс измерения \(\nu\) - простейший пример обучения. На основании этого измерения мы можем сделать предсказание, что вероятно доля красных яблок в корзине равна примерно \(\nu \sim \mu\).
Верхняя граница вероятности того как сильно оценка \(\nu\) (сделанная на выборке размера \(N\)) отклоняется (на величину \(\epsilon\)) от истинного (но не известного нам) значения \(\mu\) даётся неравенством Хёффдинга:
Котрое верно и для произвольной гипотезы \(h\) из некого множества \(H\) аппроксимирующей неизвестную функцию \(F\):
Здесь \(E_{in}(h)\) - погрешность \(h\) на тренировочной выборке, \(E_{out}(h)\) - погрешность на тестовой выборке на которой мы делаем предсказание. После того как в процессе обучения путём перебора возможных гипотез \(h_m \in H \) (где \(m = 1, \cdots, M\)) найдена оптимальная аппроксимация \(g\) неизвестной функции \(F\), неравенство принимает вид:
Неравенство Хёффдинга верно для каждого слагаемого в сумме справа, поэтому:
Примечательно, что во всех этих уравнениях не фигурирует размер всех данных, только размер тренировочных данных \(N\). Что конкретно означает \(M\) и как эта величина измеряется например для простой линейной регрессии или нейронной сети - я пока что не понял (если параметры модели непрерывены - то \(M\) становится бесконечным, и об этом слушатели спросили в конце). Вероятно подробнее об этом пойдет речь в следующих лекциях.
Эксперимент
В заключение проведём небольшой численный эксперимент. Допустим нужно оценить процент проголосовавших на выборах за кандидата путём опроса \(N\) случайных людей.
**Какова должна быть величина \(N\), чтобы вероятность отклонения полученной оценки от реального результата на величины \((0.01, 0.02, \: \cdots, 0.1)\) была не больше \(5\%\)?**
откуда видно, что для того, чтобы вероятность ошибки на \(0.02\) была меньше \(5 \%\)
\[P(|\nu - \mu| > 0.02) \leq 0.05\]
нужно опросить примерно 5000 человек.




No comments:
Post a Comment