Divergencia de Kullback-Leibler

En teoría de la probabilidad y teoría de la información, la divergencia de Kullback-Leibler (KL)[1][2][3]​ (también conocida como divergencia de la información, ganancia de la información, entropía relativa o KLIC por sus siglas en inglés) es una medida no simétrica de la similitud o diferencia entre dos funciones de distribución de probabilidad P y Q. KL mide el número esperado de extra bits requeridos en muestras de código de P cuando se usa un código basado en Q, en lugar de un código basado en P. Generalmente P representa la "verdadera" distribución de los datos, observaciones, o cualquier distribución teórica. La medida Q generalmente representa una teoría, modelo, descripción o aproximación de P.

Aunque a menudo se considera como una métrica o distancia, la divergencia KL no lo es en realidad — por ejemplo, no es simétrica: la divergencia KL de P a Q no necesariamente es la misma KL de Q a P.

La divergencia KL es un caso especial de una clase más amplia de divergencias llamadas divergencias f. Fue originalmente introducida por Solomon Kullback y Richard Leibler en 1951 como la divergencia direccionada entre dos distribuciones. KL se puede derivar de la divergencia de Bregman.

Definición

Para distribuciones de probabilidad P y Q de una variable aleatoria discreta su divergencia KL se define como

D K L ( P Q ) = i P ( i ) ln P ( i ) Q ( i ) . {\displaystyle D_{\mathrm {KL} }(P\|Q)=\sum _{i}P(i)\ln {\frac {P(i)}{Q(i)}}.\!}

En palabras, es el promedio ponderado de la diferencia logarítmica entre las probabilidades P y Q, donde el promedio se toma usando las probabilidades P. La divergencia KL solamente se define si P y Q suman 1 y si Q ( i ) > 0 {\displaystyle Q(i)>0} para cualquier i tal que P ( i ) > 0 {\displaystyle P(i)>0} . Si la cantidad 0 ln 0 {\displaystyle 0\ln 0} aparece en la fórmula, se interpreta como cero.

Para distribuciones P y Q de una variable aleatoria continua, la divergencia KL se define como la integral:[4]

D K L ( P Q ) = p ( x ) ln p ( x ) q ( x ) d x , {\displaystyle D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\ln {\frac {p(x)}{q(x)}}\,{\rm {d}}x,\!}

donde p y q representan las densidades de P y Q.

Más generalmente, si P y Q son medidas de probabilidad sobre un conjunto X, y Q es absolutamente continua con respecto a P, entonces la divergencia Kullback–Leibler de P a Q se define como

D K L ( P Q ) = X ln d Q d P d P , {\displaystyle D_{\mathrm {KL} }(P\|Q)=-\int _{X}\ln {\frac {{\rm {d}}Q}{{\rm {d}}P}}\,{\rm {d}}P,\!}

donde d Q d P {\displaystyle {\frac {{\rm {d}}Q}{{\rm {d}}P}}} es la derivada de Radon-Nikodym de Q con respecto a P, y dado que la expresión al lado derecho existe.

De la misma manera, si P es absolutamente continua con respecto a Q, entonces

D K L ( P Q ) = X ln d P d Q d P = X d P d Q ln d P d Q d Q , {\displaystyle D_{\mathrm {KL} }(P\|Q)=\int _{X}\ln {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}P=\int _{X}{\frac {{\rm {d}}P}{{\rm {d}}Q}}\ln {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}Q,}

lo cual se conoce como la entropía de P relativa a Q.

Continuando en este caso, si μ {\displaystyle \mu } es cualquier medida en X para la cual p = d P d μ {\displaystyle p={\frac {{\rm {d}}P}{{\rm {d}}\mu }}} y q = d Q d μ {\displaystyle q={\frac {{\rm {d}}Q}{{\rm {d}}\mu }}} existe, entonces la divergencia Kullback–Leibler de P a Q está dada por

D K L ( P Q ) = X p ln p q d μ . {\displaystyle D_{\mathrm {KL} }(P\|Q)=\int _{X}p\ln {\frac {p}{q}}\,{\rm {d}}\mu .\!}

Los logaritmos en estas fórmulas se toman como en base 2 si la información se mide en unidades de bits, o en base e si la información se mide en nats. La mayoría de fórmulas relacionadas con la divergencia KL se mantienen independiente de la base logarítmica.

Nos referiremos a la divergencia de P a Q, aunque algunos autores la llaman la divergencia "de Q a P" y otros la divergencia "entre P y Q" (aunque note que no es simétrica). Se debe tener cuidado debido a la falta de estandarización en la terminología.

Propiedades

  • Es siempre positiva (puede probarse usando la desigualdad de Jensen).
  • Es nula si y sólo si P = Q.
  • No es simétrica (por lo que no se trata de una distancia).

Aplicaciones

Estadística

En estadística, la divergencia de Kullback-Leibler está íntimamente relacionada con el método de ajuste de distribuciones por máxima verosimilitud. En efecto, si se tienen observaciones x 1 , . . . , x n {\displaystyle x_{1},...,x_{n}} independientes de una variable aleatoria con función de densidad desconocida f y se tratan de ajustar dentro de una familia de funciones de densidad f λ {\displaystyle f_{\lambda }} , de acuerdo con la teoría de la máxima verosimilitud, se busca el parámetro λ {\displaystyle \lambda } que maximiza la función

L λ = i log f λ ( x i ) , {\displaystyle L_{\lambda }=\sum _{i}\log f_{\lambda }(x_{i}),}

que puede aproximarse (cuando n es grande) por

f ( x ) log f λ ( x ) . {\displaystyle \int f(x)\log f_{\lambda }(x).}

Restando dicha expresión del término constante

f ( x ) log f ( x ) {\displaystyle \int f(x)\log f(x)}

se obtiene

f ( x ) log f ( x ) f ( x ) log f λ ( x ) = f ( x ) log f ( x ) f λ ( x ) , {\displaystyle \int f(x)\log f(x)-\int f(x)\log f_{\lambda }(x)=\int f(x)\log {\frac {f(x)}{f_{\lambda }(x)}},}

que es la divergencia de Kullback-Leibler entre f λ {\displaystyle f_{\lambda }} y la distribución verdadera determinada por f. Es decir, maximizar la función de verosimilitud es (aproximadamente) equivalente a encontrar el parámetro λ {\displaystyle \lambda } que minimiza la divergencia de Kullback-Leibler entre la distribución real y la familia de distribuciones parametrizadas por dicho parámetro.

Referencias

  1. Kullback, S.; Leibler, R.A. (1951). «On Information and Sufficiency». Annals of Mathematical Statistics 22 (1): 79-86. MR 39968. doi:10.1214/aoms/1177729694. 
  2. S. Kullback (1959) Information theory and statistics (John Wiley and Sons, NY).
  3. Kullback, S.; Burnham, K. P.; Laubscher, N. F.; Dallal, G. E.; Wilkinson, L.; Morrison, D. F.; Loyer, M. W.; Eisenberg, B. et al. (1987). «Letter to the Editor: The Kullback–Leibler distance». The American Statistician 41 (4): 340-341. JSTOR 2684769.  Se sugiere usar |número-autores= (ayuda)
  4. C. Bishop (2006). Pattern Recognition and Machine Learning. p. 55.

Enlaces externos

  • Matlab code for calculating KL divergence Archivado el 29 de septiembre de 2007 en Wayback Machine.
  • Sergio Verdú, Relative Entropy, NIPS 2009. One-hour video lecture.
  • Jon Shlens' tutorial on Kullback-Leibler divergence and likelihood theory
  • A modern summary of info-theoretic divergence measures
Control de autoridades
  • Proyectos Wikimedia
  • Wd Datos: Q255166
  • Identificadores
  • BNF: 180900511 (data)
  • Wd Datos: Q255166