Guia 2

Consulta clasificación

Consulta clasificación

de RIOS CASANDRA -
Número de respuestas: 7

Hola profe, con Tomás tenemos una duda. Nos olvidamos de mandarte antes pero seguimos con la misma duda. En clasificación buscamos estimar la P(Y|X) de tal manera que:


Nuestra duda es que si desarriollamos la KL ya obtenemos la crossentropy - la entropia condicional. Entonces no entendemos por que se toma la esperanza de la KL y encima a eso se le vuelve a llamar KL. Entendemos que la KL dentro de la esperanza depende de X ya que son densidades |X y que esa esperanza la tomamos sobre X. pero si desarrollamos sin la esperanza nos queda de todos modos los términos de la derecha, entonces si agregamos la esperanza, nos queda la espreanza de la cross entropy .- entropia.


Gracias y saludos. 

En respuesta a RIOS CASANDRA

Re: Consulta clasificación

de VERA MATIAS ALEJANDRO -

Hola Casandra,

Dos cosas creo que hay que aclarar acá:

  • Yo busco el \hat{P} que minimice la esperanza de la KL, lo cuál es lo mismo que minimizar las cross entropy (la entropía condicional es constante pués no depende de \hat{P}).
  • La KL es una divergencia que compara dos distribuciones, recordar el ejercicio 2.2 para esto. En este caso, se quiere comparar la original P_{Y|X} con la que elija el algoritmo \hat{P}, es decir dos probabilidades condicionales. Al ser condicionales, la KL da distinto para cada cada valor de x (P{Y|X}(y|0.1) es distinta de P{Y|X}(y|0.2)) o dicho de otra manera son funciones de x. Como son funciones de x puedo tomarle la esperanza (la esperanza del lado izquierdo es con respecto a la marginal p_X). La KL como vos decís, tiene una esperanza adentro, pero en este caso es con respecto a la condicional p_{Y|X}. Por eso mismo, esas dos esperanzas juntas forman la esperanza del lado derecho, la cuál es sobre la conjunta p_{XY}. Es decir, hice esperanza de la esperanza.
Si algo no se entiende vuelvan a preguntar.
Éxitos!


En respuesta a VERA MATIAS ALEJANDRO

Re: Consulta clasificación

de VERA MATIAS ALEJANDRO -
Lo paso a ecuaciones para que se entienda mejor. La KL es:
$$\text{KL}(P_{Y|X}(\cdot|x),\hat{P}(\cdot|x))=\sum_{y\in\mathcal{Y}}P_{Y|X}(y|x)\log\left(\frac{P_{Y|X}(y|x)}{\hat{P}(y|x)}\right)$$
Le tomo esperanza
$$\mathbf{E}[\text{KL}(P_{Y|X}(\cdot|X),\hat{P}(\cdot|X))]=\int_\mathcal{X}p_X(x)\sum_{y\in\mathcal{Y}}P_{Y|X}(y|x)\log\left(\frac{P_{Y|X}(y|x)}{\hat{P}(y|x)}\right)dx=\int_\mathcal{X}\sum_{y\in\mathcal{Y}}p_X(x)P_{Y|X}(y|x)\log\left(P_{Y|X}(y|x)\right)dx-\int_\mathcal{X}\sum_{y\in\mathcal{Y}}p_X(x)P_{Y|X}(y|x)\log\left(\hat{P}(y|x)\right)dx=\mathbf{E}[-\log\hat{P}(Y|X)]-H(Y|X)$$
En respuesta a VERA MATIAS ALEJANDRO

Re: Consulta clasificación

de RIOS CASANDRA -
Claro eso entendemos, pero lo que no nos cierra es que:

Por un lado nosotros pensaríamos que  por como se define la entopia: 

$$H(Y|X)=\int_\mathcal{x}p_{Y|X}(y|x) \cdot (- \log p_{Y|X}(y|x))\,dx$$.

, y no con la distribución conjunta como  $$H(Y|X)=\int_\mathcal{x}p_{Y,X}(y,x) \cdot (- \log p_{Y|X}(y|x))\,dx$$.

Y algo similar con la cross-entropy, que seria la esperanza sobre la condicional $$p_{Y|X}$$, y no sobre la conjunta.
En respuesta a RIOS CASANDRA

Re: Consulta clasificación

de VERA MATIAS ALEJANDRO -
No, por definición, la entropía condicional y la cross entropy se calculan sobre la conjunta. En cambio la KL es una esperanza sobre la condicional, creo que ahí radica la duda. Es decir
$$H(Y|X)=-\int_\mathcal{X}\sum_{y\in\mathcal{Y}}p_X(x)P_{Y|X}(y|x)\log\left(P_{Y|X}(y|x)\right)dx$$
(algo similar pasa con la cross-entropy). Por eso desarrollando una KL (que solo toma esperanza en la condicional) solamente no llegás a la cross-entropy; te falta agregar la esperanza en X.

Igual no estoy seguro si entiendo la pregunta, cualquier cosa repreguntá.
En respuesta a VERA MATIAS ALEJANDRO

Re: Consulta clasificación

de RIOS CASANDRA -
Claro es que la duda nos surgió de ver EM

Acá la esperanza a partir de la cual obtenemos la entropía es la de q(z|x) que es la misma que está dentro de la entropía, H(q(z|x))..
es decir para hallar esa entropia hacemos la integral de q(z|x)*log(1/q(z|x))
entonces creíamos que para obtener la entropia en y|x regía la misma lógica. 
En respuesta a RIOS CASANDRA

Re: Consulta clasificación

de VERA MATIAS ALEJANDRO -
Ahhh, ahí entendí la duda. Es un tema de notación, lo que pasa es que hay 2 objetos distintos

$$H(q(\cdot|x))\neq H(Y|X)$$

El primero es función de x y representa la entropía (común) pero sobre la distribución condicional (solamente la condicional). Al primero se lo suele denotar H(Y|X=x), mientras que el 2do H(Y|X) (la entropía condicional) es su esperanza. Para mayor detalle recomiendo la sección 2.2 del libro de Cover "ELEMENTS OF INFORMATION THEORY" (en particular en la ecuación 2.10 las vinculan).

Básicamente si ponés Y|X a secas es con la esperanza en X también (es decir, sobre la conjunta), pero si ponés una pmf (como la q) o Y|X=x la esperanza es solamente con la condicional.