9216 TIMMD: Posibles Entregables Finales

Buenas! Les dejo un resumen de lo que estuvimos hablando el lunes pasado sobre los posibles entregables para la materia. Recordamos que pueden hacerse en grupo y es importante que puedan ser compartidos, siendo un aporte a algún proyecto y que próximos alumnos puedan construir sobre él.

Trust
- Etiquetado: 5 bloques de noticias con citas etiquetadas (bloques de 20 noticias). Las noticias y tutorial de etiquetado se encuentran en el drive. Luego de la entrega de las noticias etiquetadas se revisarán y se definirán cambios o correcciones de ser necesario.
- Evaluación de la Detección: Una alternativa al etiquetado es la evaluación de las etiquetas automáticas contra las etiquetas manuales que tenemos actualmente. Este entregable sería un complemento a las etiquetas que tenemos. Se trata de generar la comparación de los resultados actuales y sugerir nuevos patrones para incorporar al modelo automático.
- Visualizaciones de Noticias: Se generará un dataset de las noticias de un corpus con atributos propios de las noticias y métricas calculadas. Se pueden sugerir nuevas métricas construidas a partir de las detecciones de Trust. Con el dataset de atributos y métricas de cada noticia del corpus se podrán explorar las características de del conjunto de noticias a partir de visualizaciones de los datos. Se puede trabajar con Power BI, Tableau o Python. Incluso se puede armar una app simple para mostrar las visualizaciones y mostrar los resultados de la exploración.

Automatización Fiuba
- Automatización de algún proceso Fiuba: Generar un programa que automatice o facilite la tarea de corrección de TPs y/o parciales en alguna materia de la facultad, con principal interés en Investigación Operativa. Recordamos que para dicha materia poseemos datasets con respuestas corregidas, entre otros.
- Diseño de Procesos Automáticos: Otro posible aporte sería pensar cómo se podría cambiar algún proceso, por ejemplo como se toma un parcial, para facilitar su ejecución y corrección.

Tesis
- Propuesta de Tesis: En caso de que vayan por una tesis como trabajo final, pueden aprovechar el Seminario para trabajar en la propuesta y presentarla como entregable final.

Cualquier consulta no duden en escribir por acá o a mi mail jcamacho@fi.uba.ar. Si quieren tener más detalle de alguna de las opciones o alguna idea que tengan podemos agendar una reunión breve y terminar de definirlo para que puedan trabajar en ello.

Saludos,

Juan Cruz

Re: Posibles Entregables Finales

de CHARON LUCIANO - viernes, 5 de julio de 2024, 17:42

Hola Juan Cruz, cóma va?

Además del etiquetado queía ver si podía hacer algo del tema de evaluación de la detección y visualización de datos, necesitaría que me pasen los datos para ir viendo cómo encararlo.

Termine de subir otro bloque de noticias (120-139), en la 131 si les sirve de algo porque vi que lo hablaban el otro día encontré un error que dice "Androni" en lugar de Adorni. Y en la 132 hay una parte que aparece una triple comilla por si les sirve también para revisar.
Tenía también una consulta respecto al etiquetado cuando se citan decretos, boletines o informes, muchas veces aparece entre comillas y el referenciado sería el informe o algún otro, en esos casos corresponde etiquetar?

Cualquier cosita me pueden escribir al mail de fiuba: lcharon@fi.uba.ar

Gracias!

Re: Posibles Entregables Finales

de CAMACHO JUAN CRUZ - lunes, 8 de julio de 2024, 11:05

Buenas Luciano! Muy bueno los avances del etiquetado, muchas gracias por participar de la actividad. Para las dudas, consultas y otras detecciones como las que comentaste (los errores por ejemplo) dejé una nueva hoja el en excel de seguimiento. Hay una fila por noticia con su título y bloque correspondiente y:

- comentario anotación manual : En esta columna se pueden dejar detallados problemas como el "Androni" que detectaste o dudas de cómo anotar; como la citan decretos, boletines o informes, que mencionas (tendría que ver un ejemplo para confirmarlo).

- puntaje automático: Esta columna permite darle un puntaje a la detección automática del algoritmo actual de fuentes (Completo, Incompleto o Equivocado). Se puede agregar otras opciones si es necesario.

- comentario anotación automática: En esta columna se puede agregar una descripción de los problemas encontrados en la detección automática, citas faltantes o dudas en la detección. Incluso podemos dejar sugerencias de cómo sería el patrón para detectar correctamente la cita faltante.

- autor comentarios: Permite aclarar quien es el autor de los campos anteriores.

Para poder hacer la comparación de las anotaciones manuales subí la demo de Trust al siguiente link:

https://trust-demo.streamlit.app/

En la página de Sources se puede seleccionar cada una de las 200 noticias y un método de anotación (automático + anotaciones manuales) para visualizar en la página. De esta manera se pueden comparar abriendo dos ventanas (una con las anotaciones automáticas y otra con las manuales) y completar comentarios/puntuación en el excel de seguimiento.

Con los errores detectados y sugerencias de nuevos patrones de detección se podrá mejorar el algoritmo de detección automática usando el feedback en el excel de seguimiento.

Finalmente, para hacer una comparación automática de las detecciones falta un paso previo de preprocesamiento, por lo que, cuando esté terminado, puedo subir los datos al drive y podemos ver de encarar esa comparación o algún tipo de visualización para representar los resultados.

Saludos,

Juan Cruz

9216 Seminario de Ing. Industrial II. Taller de Investigación con Modelización Matemática y Datos

Bienvenida y Avisos

Posibles Entregables Finales

Posibles Entregables Finales

Re: Posibles Entregables Finales

Re: Posibles Entregables Finales