EM-алгоритм

Машинне навчання та добування даних
Частина з циклу

Парадигми Кероване навчання Некероване навчання Інтерактивне навчання Пакетне навчання Метанавчання Напівкероване навчання Самокероване навчання Навчання з підкріпленням Навчання на основі правил Квантове машинне навчання^[en]
Задачі Класифікація Породжувальна модель Регресія Кластерування Знижування розмірності Оцінювання густини Виявляння аномалій Очищування даних^[en] АвтоМН Асоціативні правила Семантичний аналіз^[en] Структурове передбачування Конструювання ознак Навчання ознак Навчання ранжуванню Виведення граматик^[en] Навчання онтологій^[en] Мультимодальне навчання^[en]
Кероване навчання (класифікація • регресія) Ансамблі Випадковий ліс Бутстрепова агрегація Підсилювання Градієнтне підсилювання^[en] AdaBoost^[en] Дерева рішень MARS^[en] CART Доречно-векторна машина k-сусідів Лінійна регресія Логістична регресія Лінійний розділювальний аналіз Наївний баєсів класифікатор Перцептрон Підмайстрове навчання Опорно-векторна машина Штучні нейронні мережі
Кластерування BIRCH^[en] CURE Ієрархічне k-середніх Нечітке Очікування-максимізація DBSCAN OPTICS Спектральне Зсув середнього^[en]
Знижування розмірності Факторний аналіз Метод незалежних компонент^[en] Канонічна кореляція Дискримінантний аналіз Метод головних компонент Власний узагальнений розклад^[en] Розклад невід'ємних матриць t-розподілене вкладення стохастичної близькості Навчання розріджених словників^[en]
Структурове передбачування Графові моделі Баєсова мережа Прихована марковська модель Умовне випадкове поле
Виявляння аномалій RANSAC k-НС Коефіцієнт локального відхилення Відстань Кука Ізоляційний ліс^[en]
Штучна нейронна мережа Автокодувальник Когнітивні обчислення^[en] Глибоке навчання DeepDream^[en] Нейронна мережа прямого поширення Рекурентна нейронна мережа ДКЧП ВРВ МВС Резервуарне обчислення Обмежена машина Больцмана ГЗМ Дифузійна модель Самоорганізаційна карта Згорткова нейронна мережа U-Net Трансформер Зоровий Спайкова нейронна мережа^[en] Мемтранзистор Електрохімічна ПДД^[en] (ECRAM)
Навчання з підкріпленням Q-навчання SARSA Метод часових різниць Багатоагентне навчання з підкріпленням Гра проти себе^[en]
Навчання з людьми Активне навчання (машинне навчання)^[en] Краудсорсинг Людина-в-циклі
Діагностування моделей Крива спроможності навчатися^[en]
Математичні засади Ядрові машини Компроміс зсуву та дисперсії Ймовірнісно приблизно коректне навчання Мінімізація емпіричного ризику Оккамове навчання^[en] Регуляризація LASSO^[en] Тихонова Еластично-сіткова^[en] Статистичне навчання Теорія Вапника — Червоненкіса Теорія обчислювального навчання^[en]
Місця машинного навчання ECML PKDD^[en] NeurIPS^[en] ICML^[en] ICLR IJCAI ML JMLR
Пов'язані статті Глосарій штучного інтелекту^[en] Список наборів даних для досліджень з машинного навчання Перелік понять машинного навчання^[en]
п о р

EM-алгоритм (англ. Expectation-maximization (EM) algorithm) — алгоритм, що використовується в математичній статистиці для знаходження оцінок максимальної схожості параметрів ймовірних моделей, у випадку, коли модель залежить від деяких прихованих змінних. Кожна ітерація алгоритму складається з двох кроків. На E-кроці (expectation) вираховується очікуване значення функції правдоподібності, при цьому приховані змінні розглядаються як спостережувані. На M-кроці (maximization) вираховується оцінка максимальної схожості, таким чином збільшується очікувана схожість, вирахувана на E-кроці. Потім це значення використовується для E-кроку на наступній ітерації. Алгоритм виконується до збіжності.

Часто EM-алгоритм використовують для розділення суміші функції Гауса.

Опис алгоритму

Нехай ${\textbf {X}}$ — деяке з значень спостережуваних змінних, а ${\textbf {T}}$ — прихованні змінні. Разом ${\textbf {X}}$ і ${\textbf {T}}$ утворюють повний набір даних. Взагалі, ${\textbf {T}}$ може бути деякою підказкою, яка полегшує рішення проблеми у випадку, якщо вона відома. Наприклад, якщо є суміш розподілів, функція правдоподібності легко виражається через параметри відокремлених розподілів суміші.

Покладемо $p\,$ — густину імовірності (в безперервному випадку) або функція ймовірностей (в дискретному випадку) повного набору даних з параметрами $\Theta$ : $p(\mathbf {X} ,\mathbf {T} |\Theta ).$ Цю функцію можна розуміти як правдоподібність всієї моделі, якщо розглядати її як функцію параметрів $\Theta$ . Зауважимо, що умовний розподіл прихованої компоненти при деякому спостереженні та фіксованому наборі параметрів може бути вираженим так:

p(\mathbf {T} |\mathbf {X} ,\Theta )={\frac {p(\mathbf {X} ,\mathbf {T} |\Theta )}{p(\mathbf {X} |\Theta )}}={\frac {p(\mathbf {X} |\mathbf {T} ,\Theta )p(\mathbf {T} |\Theta )}{\int p(\mathbf {X} |\mathbf {\hat {T}} ,\Theta )p(\mathbf {\hat {T}} |\Theta )d\mathbf {\hat {T}} }}

використовуючи розширену формулу Байеса і формулу повної ймовірності. Таким чином, нам необхідно знати тільки розподіл спостережуваної компоненти при фіксованій прихованій $p(\mathbf {X} |\mathbf {T} ,\Theta )$ і ймовірності прихованих даних $p(\mathbf {T} |\Theta )$ .

EM-алгоритм ітеративно покращує початкову оцінку $\Theta _{0}$ , обчислюючи нові значення оцінок $\Theta _{1},\Theta _{2},$ і так далі. На кожному кроці перехід до $\Theta _{n+1}\,$ від $\Theta _{n}\,$ виконується таким чином:

\Theta _{n+1}=\arg \max _{\Theta }Q(\Theta )

де $Q(\Theta )$ — математичне сподівання логарифма правдоподібності. Іншими словами, ми не можемо відразу обчислити точну правдоподібність, але за відомими даними ( $X$ ) ми можемо знайти апостеріорну оцінку ймовірностей для різних значень прихованих змінних $T$ . Для кожного набору значень $T$ і параметрів $\Theta$ ми можемо обчислити математичне сподівання функції правдоподібності з даного набору $X$ . Воно залежить від попереднього значення $\Theta$ , бо це значення впливає на ймовірності прихованих змінних $T$ .

$Q(\Theta )$ обчислюється таким чином:

Q(\Theta )=E_{\mathbf {T} }\!\!\left[\log p\left(\mathbf {X} ,\mathbf {T} \,|\,\Theta \right){\Big |}\mathbf {X} \right]

тобто умовне математичне сподівання $\log p\left(\mathbf {X} ,\mathbf {T} \,|\,\Theta \right)$ при умові $\Theta$ .

Іншими словами, $\Theta _{n+1}$ — це значення, максимізуючи (M) умовне математичне сподівання (E) логарифма правдоподібності при даних значеннях спостережуваних змінних і попередньому значенні параметрів. У безперервному випадку значення $Q(\Theta )$ вираховується так:

Q(\Theta )=E_{\mathbf {T} }\!\!\left[\log p\left(\mathbf {X} ,\mathbf {T} \,|\,\Theta \right){\Big |}\mathbf {X} \right]=\int _{-\infty }^{\infty }p\left(\mathbf {T} \,|\,\mathbf {X} ,\Theta _{n}\right)\log p\left(\mathbf {X} ,\mathbf {T} \,|\,\Theta \right)d\mathbf {T}

Альтернативний опис

За певних обставин зручно розглядати EM-алгоритм як два чергуються кроку максимізації.^[1]^[2] Розглянемо функцію:

F(q,\theta )=\operatorname {E} _{q}[\log L(\theta ;x,Z)]+H(q)=-D_{\text{KL}}{\big (}q{\big \|}p_{Z|X}(\cdot |x;\theta ){\big )}+\log L(\theta ;x)

де q — розподіл ймовірностей неспостережуваних змінних Z; p_Z|X(· |x;θ) — умовний розподіл неспостережуваних змінних при фіксованих спостережуваних x і параметрах розподілення ймовірностей неспостережуваних змінних θ; H — ентропія і D_KL — відстань Кульбака — Лейблера.

Тоді кроки EM-алгоритму можна показати як:

E(xpectation) крок: Вибираємо q, щоб максимізувати F:

q^{(t)}=\operatorname {*} {arg\,max}_{q}\ F(q,\theta ^{(t)})

M(aximization) крок: Вибираємо θ, щоб максимізувати F:

\theta ^{(t+1)}=\operatorname {*} {\arg \,max}_{\theta }\ F(q^{(t)},\theta )

Примітки

↑ Neal, Radford; Hinton, Geoffrey (1999). Michael I. Jordan (ред.). A view of the EM algorithm that justifies incremental, sparse, and other variants (PDF). Learning in Graphical Models. Cambridge, MA: MIT Press: 355—368. ISBN 0262600323. Архів оригіналу (PDF) за 7 червня 2020. Процитовано 22 березня 2009.
↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2001). 8.5 The EM algorithm. The Elements of Statistical Learning. New York: Springer. с. 236–243. ISBN 0-387-95284-5.