Seguimiento en modelos de regresión logística
Palabras clave:
Logistic regression, change detection, credit scoring.Resumen
La gran mayoría de los proyectos de minería de datos que utilizan la metodología KDD en la vida real entregan solamente soluciones estáticas, que con el paso del tiempo pierden la capacidad de explicar los fenómenos para los que fueron construidos inicialmente. Presen-tamos un marco teórico-práctico que permite realizar un seguimiento cercano a los modelos para determinar el momento donde éstos deben ser actualizados, manteniendo un estricto control sobre la evolución de los mismos, las variables presentes en ellos y los cambios re-levantes que pueden ocurrir en la población desde que fueron inicialmente diseñados. Los tests estadísticos incluyen tests clásicos como las pruebas de Kolmogorov-Smirnov o la prue-ba de Chi-Cuadrado para medir los cambios en las medias de las variables en los modelos, más un test novedoso diseñado en base a la distribución de los coeficientes en los modelos y la desviación estándar observada de las variables, que permite medir cuándo la población ha cambiado más allá de los intervalos de confianza definidos por los parámetros iniciales. La metodología fue puesta a prueba utilizando las bases de datos reales de dos proyectos de Credit Scoring a microempresarios, realizados entre los años 2007 y 2008 con muy buenos resultados.
Most data mining projects in real life applications give as a result only static solutions which, in time, lose their inherent capacity to explain the phenomena they were originally built for. We introduce an theoretical-practical framework that allows to closely follow up logistic regression models to determine the moment when they must be updated, maintaining an strict control over their evolution, the variables in them and relevant changes that can occur in the popula-tion since they were originally designed. The statistical test presented include classical tests such as Kolmogorov-Smirnov and Chi-Squared statistic to measure changes in means of the variables present in the models, plus a novel test designed from the distribution of the models coefficients that allows to measure the moment when a population has changed more than the confidence intervals defined from the original parameters. The methodology was tested using the databases from two real world micro-entrepreneurs credit scoring projects develo-ped between the years 2007 and 2008, with very good results.
Descargas
Descargas
Publicado
Número
Sección
Licencia
Revista Ingeniería Industrial by Revista Ingeniería Industrial is licensed under a Creative Commons Reconocimiento 4.0 Internacional License. Creado a partir de la obra en revistas.ubiobio.cl/index.php/RI/. Puede hallar permisos más allá de los concedidos con esta licencia en http://revistas.ubiobio.cl/index.php/RI/about/