Skip to the content.

Trabajo Práctico

Consigna General

El trabajo práctico de este cuatrimestre consta de cuatro entregas:

En todas ellas trabajaremos con este dataset.

Los datos presentados son transacciones electrónicas de pago, con información relacionada a la misma que va desde el importe, dispositivo en que fue realizada, hasta si se trataba de un intento de fraude o no. Esto podemos encontrarlo en el archivo transaction, indicado en la columna target.

En un futuro trabajaremos para entrenar un modelo que nos permita predecir el valor de esa columna, pero por ahora vamos a dedicarle tiempo a analizar esos datos.

Primera Entrega (Analisis exploratorio)

Trabajaremos en el análisis exploratorio de los datos presentados. Para esto, vamos a presentarles algunas consultas a resolver en Pandas. Si bien deben estar resueltas, no son la totalidad de la entrega. La idea es que sirvan de base para comenzar a entender los datos, investigarlos y sacar conclusiones.

Estas preguntas deben usarse como puntapié para desarrollar el análisis, intentando descubrir la relación que existe entre los distintos atributos y el target.

Segunda Entrega (Visualizaciones)

Tabajaremos en construir visualizaciones que nos permitan entender mejor los datos presentados y complementar nuestro análisis exploratorio. Para esto, vamos a proponerles algunos plots a realizar.

Criterio de evaluacion

En todos los casos, evaluaremos la calidad de las visualizaciones presentadas. Algunos puntos a tener en cuenta son:

Tercera Entrega (Spark)

Trabajaremos resolviendo las consultas de la primera entrega, pero esta vez utilizando Spark. Se debe utilizar la api de RDD (la vista en clase) y NO otra, ya sea la de SQL, Dataframe, etc.

Estas consultas deben estar resueltas, pero no son la totalidad de la entrega. Debe tomar lo aprendido sobre los datos en el TP de Pandas e intentar descubrir más información sobre el set de datos.

Importante: Estas preguntas deben usarse como puntapié para desarrollar el análisis, intentando descubrir la relación que existe entre los distintos atributos y el target.

Cuarta Entrega (Machine Learning)

El futuro es hoy y como cuarta entrega finalmente deberan desarrollar modelos de machine learning que nos permitan predecir el target de nuestro conjunto de datos dados.

Baseline

Deberan construir un modelo muy sencillo para saber qué es lo peor que podemos hacer. En general, esta es una tarea muy importante que queremos que repitan en sus proyectos de machine learning. ¿Por qué?

Tareas a realizar

Utilizando todos las columnas del dataset (exceptuando ids únicos) con algún encoding donde sea necesario, entrenar una regresión logística, haciendo búsqueda de hiperparametros y garantizando su reproducibilidad (los resultados del notebook no deberan variar segun la corrida).

Responder

Modelos para prediccion

Tareas a realizar

Para este punto debe diseñar y entrenar 2 modelos distintos a eleccion. Cada uno debe incluir su respectiva búsqueda de hiperparametros y feature engineering.

Requerimientos
Responder

Asignaciones de ayudantes

Cada alumno trabajará con un ayudante o grupo de ayudantes asignado y pueden ser consultadas en la siguiente tabla

Padrón Apellido Nombre Ayudante
81061 Sanchez Negrette Juan Pablo Lucas
96970 Brandan Ricardo Ezequiel Martín y Joaquín
97529 Batallan David Leonardo Nacho B
101284 Jadur Luciano Julieta
104078 Delgado Nahuel Martín y Joaquín
104545 Cano Ezequiel Martin Nacho B
104607 Mendoza Elias Nacho B
105079 Brizuela Lopez Mariano Jesus Matías
106194 Galarza Adrian Natalia
106267 Lozano Martina Victoria Lucas
106828 Peña Alejandro Daniel Damián
106863 Losada Tomas Facundo Nacho A
108090 Fontana María Agustina Julieta
108932 Zysman Bayetto Nicolás Matías
109065 Moscoloni Maria Florencia Nacho A
109425 Ruiz Karen Belén Natalia
109441 Calvert de Bohun Lucia Natalia
109669 Fatala Siro Julieta
109883 Manuel Herrera Damián
110147 Barroero Ignacio JuanMa y Alejo
110198 Perez Mendoza Salvador JuanMa y Alejo
110402 Caserio Longoni Felipe Nacho A
111028 Paniccia Delfina Lucas