TA136: Consulta TP8 | campusgradofi

Buenas tardes, quería hacer una consulta sobre la parte de entrenamiento del último TP de EM que no estoy entendiendo bien.

¿La dimensión de cada una de las muestras de los instrumentos son la cantidad de valores de audio que devuelve la función Load? Eso da una cantidad de features distinto para cada muestra, ya que hay algunas de 80.000 o hasta 120.000, por ejemplo. Pienso que quizas se podría aplicar algún proceso de padding para nivelar para todos la misma cantidad de datos, pero no se si era la idea.

Gracias de antemano. Saludos.

Re: Consulta TP8

de VERA MATIAS ALEJANDRO - jueves, 29 de mayo de 2025, 10:01

Hola Facundo,

Vos tenés varias grabaciones de cada instrumento. A cada una de ellas le puedo calcular la fft ventaneada. El proceso de ventaneo consiste en agarrar un pedacito de señal, calcularle el espectro, agarrar otro pedacito (típicamente con solapamiento) calcularle el espectro, etc. Es decir que por cada señal tengo muchos "frames" de fft. ¿Qué es una muestra en este contexto? Bueno, para la parte de learning vamos a considerar cada frame como muestra. Es decir, que puedo juntar todos los frames de "clarinete" (de train) y juntarlos (ya deja de ser importante cuáles eran de la señal 0, cuales de la señal 1, etc, sino que ahora cada frame es una muestra). Y como todos los frames tienen la misma dimensión, no es necesario hacer ningún tipo de padding.

Éxitos!