Qué saber cuando la minería de datos con el K-Means Algorithim

Qué saber cuando la minería de datos con el K-Means Algorithim

Qué saber cuando la minería de datos con el K-Means Algorithim

VALORACIÓN DEL ARTÍCULO:
5/5


El algoritmo de agrupamiento de medios k- es una herramienta de minería de datos y aprendizaje automático utilizada para agrupar observaciones en grupos de observaciones relacionadas sin ningún conocimiento previo de esas relaciones. Mediante el muestreo, el algoritmo intenta mostrar a qué categoría, o conglomerado, pertenecen los datos, y el número de conglomerados se define por el valor k.

El algoritmo k-means es una de las técnicas de agrupamiento más simples y se utiliza comúnmente en imágenes médicas, biometría y campos relacionados. La ventaja de k-significa que le informa sobre sus datos (usando su forma no supervisada) en lugar de tener que instruir al algoritmo sobre los datos al principio (usando la forma supervisada del algoritmo).

A veces se le llama Algoritmo de Lloyd, particularmente en los círculos de ciencias de la computación porque el algoritmo estándar fue propuesto por primera vez por Stuart Lloyd en 1957. El término «k-means» fue acuñado en 1967 por James McQueen.

Cómo funciona el algoritmo K-Means

El algoritmo k-means es un algoritmo evolutivo que toma su nombre de su método de funcionamiento. El algoritmo agrupa las observaciones en grupos k, donde k se proporciona como parámetro de entrada. A continuación, asigna cada observación a los conglomerados en función de la proximidad de la observación a la media del conglomerado. La media del clúster se vuelve a calcular y el proceso comienza de nuevo. Así es como funciona el algoritmo:

  1. El algoritmo selecciona arbitrariamente k puntos como los centros iniciales del cluster (el medio).
  2. Cada punto en el conjunto de datos se asigna al cúmulo cerrado, basado en la distancia euclidiana entre cada punto y cada centro de cúmulo.
  3. Cada centro de clúster se calcula de nuevo como el promedio de los puntos en ese clúster.
  4. Los pasos 2 y 3 se repiten hasta que los grupos convergen. La convergencia puede definirse de manera diferente dependiendo de la implementación, pero normalmente significa que o bien ninguna observación cambia de grupo cuando se repiten los pasos 2 y 3, o bien que los cambios no hacen una diferencia material en la definición de los grupos.

Selección del número de clusters

Una de las principales desventajas de k- significa que debe especificar el número de clusters como entrada al algoritmo. Tal como está diseñado, el algoritmo no es capaz de determinar el número apropiado de clusters y depende de que el usuario lo identifique de antemano.

Por ejemplo, si usted tiene un grupo de personas que van a ser agrupadas en base a la identidad de género binaria como hombre o mujer, llamar al k- significa algoritmo usando la entrada k=3 forzaría a las personas a formar tres grupos cuando sólo dos, o una entrada de k=2, proporcionaría un ajuste más natural.

De manera similar, si un grupo de individuos se agrupara fácilmente basándose en el estado de residencia y usted llamara al algoritmo k-media con la entrada k=20,, los resultados podrían ser demasiado generalizados para ser efectivos.

Por esta razón, a menudo es una buena idea experimentar con diferentes valores de k para identificar el valor que mejor se adapte a sus datos. También es posible que desee explorar el uso de otros algoritmos de minería de datos en su búsqueda de conocimientos aprendidos con máquinas.

TAMBIÉN TE INTERESA

estafas-vacacionales

¡Ojo con las estafas vacacionales en vísperas de Semana Santa!

Cada puente o periodo de vacaciones, surgen todo tipo de estafas vacacionales. Al margen de una enfermedad, lo peor que le puede pasar a una persona es que le arruinen sus vacaciones. Fraudes siempre ha habido, de todo tipo, pero ahora que todo lo gestionamos de manera digital, las trampas se han multiplicado. Cabe recordar

Zenfone-11-Ultra

Zenfone 11 Ultra, que siga la fiesta de la IA en los smartphones

Todos los últimos lanzamientos de smartphones están marcados por la inteligencia artificial. Este hecho, que ocupa los titulares de hoy, se está convirtiendo en un estándar y pronto dejará de ser noticia. Pero no estos momentos es la novedad y la transformación hacia la que caminan todas las marcas del mercado. Así lo ha hecho

Enco-Buds2-Pro

Enco Buds2 Pro: unos auriculares buenos, bonitos, baratos e inteligentes

Por menos de 50 euros, los auriculares OPPO Enco Buds2 Pro pueden darnos todo lo que necesitamos para nuestro día a día. ¿Por qué? Porque son una combinación excepcional de calidad de sonido, duración de batería extendida y un diseño moderno y funcional. Además cuentan con funciones inteligentes y dan a los usuarios la libertad

Xiaomi-14-Series

Xiaomi 14 Series se suma a la puja por ser el móvil del año

Xiaomi 14 Series llega al mercado para colarse en la eterna batalla que mantienen los flagships de Apple y Samsung. Al igual que sus rivales, los nuevos móviles de la marca china llegan con la IA bajo el brazo y una gran cantidad de razones para aspirar a ser uno de los móviles del 2024.