Qué saber cuando la minería de datos con el K-Means Algorithim

Qué saber cuando la minería de datos con el K-Means Algorithim

Qué saber cuando la minería de datos con el K-Means Algorithim

VALORACIÓN DEL ARTÍCULO:
5/5


El algoritmo de agrupamiento de medios k- es una herramienta de minería de datos y aprendizaje automático utilizada para agrupar observaciones en grupos de observaciones relacionadas sin ningún conocimiento previo de esas relaciones. Mediante el muestreo, el algoritmo intenta mostrar a qué categoría, o conglomerado, pertenecen los datos, y el número de conglomerados se define por el valor k.

El algoritmo k-means es una de las técnicas de agrupamiento más simples y se utiliza comúnmente en imágenes médicas, biometría y campos relacionados. La ventaja de k-significa que le informa sobre sus datos (usando su forma no supervisada) en lugar de tener que instruir al algoritmo sobre los datos al principio (usando la forma supervisada del algoritmo).

A veces se le llama Algoritmo de Lloyd, particularmente en los círculos de ciencias de la computación porque el algoritmo estándar fue propuesto por primera vez por Stuart Lloyd en 1957. El término «k-means» fue acuñado en 1967 por James McQueen.

Cómo funciona el algoritmo K-Means

El algoritmo k-means es un algoritmo evolutivo que toma su nombre de su método de funcionamiento. El algoritmo agrupa las observaciones en grupos k, donde k se proporciona como parámetro de entrada. A continuación, asigna cada observación a los conglomerados en función de la proximidad de la observación a la media del conglomerado. La media del clúster se vuelve a calcular y el proceso comienza de nuevo. Así es como funciona el algoritmo:

  1. El algoritmo selecciona arbitrariamente k puntos como los centros iniciales del cluster (el medio).
  2. Cada punto en el conjunto de datos se asigna al cúmulo cerrado, basado en la distancia euclidiana entre cada punto y cada centro de cúmulo.
  3. Cada centro de clúster se calcula de nuevo como el promedio de los puntos en ese clúster.
  4. Los pasos 2 y 3 se repiten hasta que los grupos convergen. La convergencia puede definirse de manera diferente dependiendo de la implementación, pero normalmente significa que o bien ninguna observación cambia de grupo cuando se repiten los pasos 2 y 3, o bien que los cambios no hacen una diferencia material en la definición de los grupos.

Selección del número de clusters

Una de las principales desventajas de k- significa que debe especificar el número de clusters como entrada al algoritmo. Tal como está diseñado, el algoritmo no es capaz de determinar el número apropiado de clusters y depende de que el usuario lo identifique de antemano.

Por ejemplo, si usted tiene un grupo de personas que van a ser agrupadas en base a la identidad de género binaria como hombre o mujer, llamar al k- significa algoritmo usando la entrada k=3 forzaría a las personas a formar tres grupos cuando sólo dos, o una entrada de k=2, proporcionaría un ajuste más natural.

De manera similar, si un grupo de individuos se agrupara fácilmente basándose en el estado de residencia y usted llamara al algoritmo k-media con la entrada k=20,, los resultados podrían ser demasiado generalizados para ser efectivos.

Por esta razón, a menudo es una buena idea experimentar con diferentes valores de k para identificar el valor que mejor se adapte a sus datos. También es posible que desee explorar el uso de otros algoritmos de minería de datos en su búsqueda de conocimientos aprendidos con máquinas.

TAMBIÉN TE INTERESA

Inteligencia Artificial Generativa y deporte

Inteligencia Artificial Generativa y deporte: una relación que va tomando forma…

El deporte, tradicionalmente anclado en la emoción del directo en la televisión en directo en los estadios, está entrando en una nueva era digital, profundamente influenciada por la inteligencia artificial (IA). Inteligencia Artificial Generativa y deporte están yendo de la mano y es la relación del momento para las generaciones jóvenes. Así lo concluye el

vivo X200 FE

Vivo X200 FE: fuera caretas con esta nueva gama alta

La marca vivo, siempre muy identificada con móviles accesibles, se quita la carea para presentar el nuevo vivo X200 FE, un dispositivo que busca conquistar a los usuarios que quieren rendimiento premium sin renunciar a la comodidad. Con una cámara desarrollada junto a ZEISS, batería de larga duración, una pantalla de alto nivel y un

videovigilancia camara AOV PT

La cámara AOV PT: un motivo para irse tranquilo de vacaciones

El verano es sinónimo de descanso, desconexión y viajes. Pero también de preocupación y seguro que las siglas de la cámara AOV PT ayudan a combatir ese sentimiento. Casas vacías, negocios con menos actividad y propiedades que quedan fuera del radar diario se convierten en un blanco fácil para robos o actos vandálicos. En este

la estafa más habitual de España

Así es la estafa más habitual: WhatsApp, Telegram, oferta de empleo y un troyano…

Está arrasando. La estafa más habitual que circula por España lo tiene todo: ingeniería social, plataformas de mensajería, el señuelo del un empleo irreal y un troyano que tienes cuando ya has caído. Los expertos en ciberseguridad como Secure&IT se han hecho eco de multitud de robos de estas características. Describiendo la estafa más habitual