VIII Congreso Internacional de Informática en la Salud. II Congreso Moodle Salud

SLD263-IMPLEMENTACION DEL INDICE DE DUNN PARA LA EVALUACION DE LA TENDENCIA AL AGRUPAMIENTO DE CONJUNTOS DE DATOS QUIMIOINFORMATICOS
Monica Rabassa Gutierrez

Última modificación: 2010-12-17

Resumen


Los algoritmos de agrupamiento encuentran clústeres independientemente de que exista o no una tendencia no aleatoria a formar grupos. A partir de aquí surge la necesidad de determinar si hay clústeres presentes como paso previo al proceso de agrupamiento. Para lograr este fin, existen diversas técnicas formales estadísticas, así como otras menos formales, pero ninguna de ellas resulta completamente satisfactoria. Recientemente, han aparecido un grupo de técnicas visuales denominadas VAT (Visual Assessment of Tendency o Evaluación Visual de la Tendencia) que resultan ser muy atractivas por su efectividad y fácil interpretabilidad. Las técnicas VAT están basadas en el reordenamiento de las relaciones de disimilitud entre n objetos; de modo que la imagen resultante indicará una estructura definida de bloques oscuros a lo largo de la diagonal principal. Sin embargo, este reordenamiento es muy costoso computacionalmente para conjuntos de datos de tamaño medio a grande. Alternativamente, se ha mostrado que el índice de Dunn por encima de uno (1) para las particiones obtenidas por el método Single Link (SL), es una indicación de la presencia de una estructura de bloques en la matriz de intensidades y por lo tanto una buena indicación de la tendencia natural de los datos considerados a formar clústeres. En este trabajo se implementa el índice de Dunn y se aplica como una medida novedosa en Quimioinformática para la evaluación a la tendencia al agrupamiento. Su uso es ejemplificado en ocho conjuntos farmacológicos de interés científico internacional, representados por descriptores moleculares, de naturaleza numérica real, seleccionados mediante Aprendizaje Automático. En todos los casos los valores observados están por debajo de uno (1) indicando una débil tendencia de los datos a formar grupos naturales. Sin embargo, los resultados obtenidos sugieren que esta medida es especialmente útil en el análisis de clústeres compactos.

Se necesita una cuenta en este sitio para poder ver los documentos. Haga clic aquí para crear una cuenta.