TA136: TP2 consultas | campusgradofi

Buenas noches, quería consultar algunas dudas que me surgieron haciendo el tp2.

De la parte de preprocesamiento, no me queda claro porque no utilizamos las features categóricas (ya en formato one hot encoding) a la hora de armar el mapa polinómico. No estaríamos dejando afuera a los productos cruzados con las features numéricas?
Respecto de la columna de unos. En mi caso, al generar el mapa polinómico, no la agregue para poder hacer la normalización sin tener el problema de varianza nula. La consulta es si debo agregarla al mapa antes de llamar al método de regresión lineal de sklearn o si se agrega solo. Leyendo la documentación de LinearRegression() vi un parámetro de configuración que se llama "fit_intercept" que por default esta en True y creo que tiene que ver con el termino independiente pero quiero estar seguro que sea así.
Por ultimo, en la etapa de validación, entiendo que la normalización hay que hacerla con los parámetros de media y varianza de las muestras de entrenamiento, pero el onehotencoding y el mapa polinómico debería volver a "fitearlos" y transformarlos con los datos de validación no?

Desde ya muchas gracias

Buen fin de semana

Re: TP2 consultas

de DOLENC DANIEL STEFANO - domingo, 23 de marzo de 2025, 13:06

Buenas tardes!

Sobre el mismo punto de preprocesamiento tengo un par de dudas más:
- ¿El mapa polinómico consiste en llamar varias veces fit_transform para distintos pares (como si fuera un pairplot)? ¿O solo se la llama una vez para que se aplique a todas las variables numéricas al mismo tiempo?
- Por último, no terminé de entender muy bien qué significa "Combinar las salidas" en el punto (b) 3.

Gracias,
Daniel

Re: TP2 consultas

de VERA MATIAS ALEJANDRO - martes, 25 de marzo de 2025, 10:33

Hola Daniel,

1) Si usas PolynomialFeatures de sklearn, está pensado para que entren todas las entradas (a las que quieras aplicar el mapa) juntas. Un tema a tener en cuenta es que tanto LinearRegression como Ridge de sklearn ya te agregan la columna de 1s, por lo que en el mapa polinómico se recomienda desactivarla.
2) Por un lado, a las variables categóricas les aplico una transformación onehot. Por el otro, a las numéricas le aplico la transformación del mapa polinómico. Por combinar las salidas me refiero a volver a juntar estos dos paquetes de variables transformadas para volver a hacerlos una sola entrada (y así normalizarlas).

Éxitos

Re: TP2 consultas

de VERA MATIAS ALEJANDRO - martes, 25 de marzo de 2025, 10:28

Hola Marco, paso a contestarte.

1) El problema de hacer un mapa con variables one hot, es que x . 0 = 0 y x . 1 = 1. Es decir, un x^2=x para este caso. En el caso de los cruzados es lo mismo, x * 0 sería =0 (no aportaría nada) y x * 1 = x (estaría repetida). Aporta muy poca información para agregar coeficientes por eso (recordar que agregar coeficientes tiende a aumentar la complejidad del modelo y por lo tanto alienta el overfitting). En última instancia es un criterio de modelado, pero en lo personal lo desaliento.
2) Correcto, el LinearRegression de sklearn te agrega solo la columnas de unos. Yo la sacaría del mapa polinómico.
3) Tanto el onehot como el mapa no tienen fiteo (no se fija ningún parámetro). Por consistencia suele hacerse fit_transform en entrenamiento y solo transform en validación, pero para estas operaciones es realmente lo mismo.

Éxitos