Buenas tardes, quería hacer una consulta sobre la parte de entrenamiento del último TP de EM que no estoy entendiendo bien.
¿La dimensión de cada una de las muestras de los instrumentos son la cantidad de valores de audio que devuelve la función Load? Eso da una cantidad de features distinto para cada muestra, ya que hay algunas de 80.000 o hasta 120.000, por ejemplo. Pienso que quizas se podría aplicar algún proceso de padding para nivelar para todos la misma cantidad de datos, pero no se si era la idea.
Gracias de antemano. Saludos.