Buenas tardes profe. Con Tomás nos surgieron unas dudas del algoritmo EM.
Lo que entendemos es que queremos encontrar el parámetro theta que maximice p(Xi |θ).
El problema es que aparece la variable latente Z que representa información de la cual no tenemos observaciones. Entonces calcular p(Xi |θ) como la integral de la conjunta entre X y Z | θ no lo podemos hacer, o es muy complicado.
De acá surge el algoritmo de EM. En el paso de expectación buscamos q que es una aproximacion de la p(Z|X,θ). En el paso M finalmente hallamos el theta que maximiza la ELBO. Y así hasta la convergencia.
Nos sirgen unas dudas:
1) si ya inicialmente no podemos calulcar log p(Xi |θ) directamente, por que en la solucion propuesta vuelve a aparecer esta misma expresion?
2) Como inicia el algoritmo? porque para calcular q necesitamos calcular la KL (q(·|Xi )∥p(·|Xi , θ)). O sea para calcular q(·|Xi ) que es una aproximación de p(·|Xi , θ), necesitamos p(·|Xi , θ). Entonces nos trabamos un poco en toda la explicación.
Leímos la bibliografía recomendada pero ninguno lo hace con la KL. Entendemos la idea pero no la deducción matemática.
Gracias y saludos!