Skip to the content.

Ciencia de Datos — Trabajo Práctico N.º 3

Machine Learning

El tercer TP es una competencia de Machine Learning en donde cada alumno debe intentar determinar, para cada tweet brindado, si el mismo está basado en un hecho real o no.

La competencia se desarrolla en la plataforma de Kaggle https://www.kaggle.com/c/nlp-getting-started.

El dataset consta de una serie de tweets, para los cuales se informa:

Los submits con el resultado deben tener el formato:

target: 1 / 0 según se crea que el tweet se trata sobre un desastre real, o no.

Los alumnos deberán probar distintos algoritmos de Machine Learning para intentar predecir si el tweet está basado en hechos reales o no. A medida que realicen pruebas deben realizar el correspondiente submit en Kaggle para evaluar el resultado de los mismos.


Parte I: Análisis exploratorio (2 puntos)

Realizar 6 visualizaciones interesantes que ayuden a explicar el target.


Parte II: Machine Learning Baseline (2 puntos)

Vamos a construir un modelo muy sencillo para saber qué es lo peor que podemos hacer, en general esta es una tarea muy importante que queremos que repitan en sus proyectos de machine learning. ¿Por qué?

Se deben crear al menos dos features numéricas y dos features categóricas para entrenar una regresión logística, utilizando búsqueda de hiperparametros, realizando los encodings correspondientes y garantizando la reproducibilidad de los resultados cuando el notebook corriera varias veces. A su vez, usar un embedding para el campo text.

Conteste las preguntas:


Parte III: Machine Learning (4 puntos)

Entrenar 2 (de tipos distintos, excluyendo regresiones logísticas) modelos (2 puntos cada uno) con búsqueda de hiperparametros (¿cómo conviene elegir los datos de validación respecto de los de train?).

Los modelos deben cumplir las siguientes condiciones:

Deberán contestar la siguiente pregunta:


Parte IV: Consignas adicionales (2 puntos)

Sumar al menos 2 puntos adicionales, realizando las consignas a continuación que sean necesarias:


Criterio de corrección

Se necesita un 60% (6/10) de los puntos para aprobar.

Parte I

Cada visualización vale un punto, y debe cumplir con las siguientes condiciones:

Parte II

Vamos a corregir los siguientes puntos (no pueden restar más de 2 en total):

Parte III

Vamos a corregir los siguientes puntos en cada modelo de 2 puntos (a medida se acumulan estos pueden hacer que el modelo valga 0, pero nunca negativo):

Además si un modelo diera un resultado menor a 0,6 en validación se invalida entero. Por sobre el puntaje total del ejercicio (ambos modelos) se restan 2 puntos si cualquiera de las siguientes cosas suceden (no acumulables): eligen mal el mejor modelo entre los dos o la predicción para la competencia no está bien hecha o la predicción en la competencia da menos de 0.5.

Detalles y recomendaciones