Qué saber cuando la minería de datos con el K-Means Algorithim

Qué saber cuando la minería de datos con el K-Means Algorithim

Qué saber cuando la minería de datos con el K-Means Algorithim

VALORACIÓN DEL ARTÍCULO:
5/5


El algoritmo de agrupamiento de medios k- es una herramienta de minería de datos y aprendizaje automático utilizada para agrupar observaciones en grupos de observaciones relacionadas sin ningún conocimiento previo de esas relaciones. Mediante el muestreo, el algoritmo intenta mostrar a qué categoría, o conglomerado, pertenecen los datos, y el número de conglomerados se define por el valor k.

El algoritmo k-means es una de las técnicas de agrupamiento más simples y se utiliza comúnmente en imágenes médicas, biometría y campos relacionados. La ventaja de k-significa que le informa sobre sus datos (usando su forma no supervisada) en lugar de tener que instruir al algoritmo sobre los datos al principio (usando la forma supervisada del algoritmo).

A veces se le llama Algoritmo de Lloyd, particularmente en los círculos de ciencias de la computación porque el algoritmo estándar fue propuesto por primera vez por Stuart Lloyd en 1957. El término «k-means» fue acuñado en 1967 por James McQueen.

Cómo funciona el algoritmo K-Means

El algoritmo k-means es un algoritmo evolutivo que toma su nombre de su método de funcionamiento. El algoritmo agrupa las observaciones en grupos k, donde k se proporciona como parámetro de entrada. A continuación, asigna cada observación a los conglomerados en función de la proximidad de la observación a la media del conglomerado. La media del clúster se vuelve a calcular y el proceso comienza de nuevo. Así es como funciona el algoritmo:

  1. El algoritmo selecciona arbitrariamente k puntos como los centros iniciales del cluster (el medio).
  2. Cada punto en el conjunto de datos se asigna al cúmulo cerrado, basado en la distancia euclidiana entre cada punto y cada centro de cúmulo.
  3. Cada centro de clúster se calcula de nuevo como el promedio de los puntos en ese clúster.
  4. Los pasos 2 y 3 se repiten hasta que los grupos convergen. La convergencia puede definirse de manera diferente dependiendo de la implementación, pero normalmente significa que o bien ninguna observación cambia de grupo cuando se repiten los pasos 2 y 3, o bien que los cambios no hacen una diferencia material en la definición de los grupos.

Selección del número de clusters

Una de las principales desventajas de k- significa que debe especificar el número de clusters como entrada al algoritmo. Tal como está diseñado, el algoritmo no es capaz de determinar el número apropiado de clusters y depende de que el usuario lo identifique de antemano.

Por ejemplo, si usted tiene un grupo de personas que van a ser agrupadas en base a la identidad de género binaria como hombre o mujer, llamar al k- significa algoritmo usando la entrada k=3 forzaría a las personas a formar tres grupos cuando sólo dos, o una entrada de k=2, proporcionaría un ajuste más natural.

De manera similar, si un grupo de individuos se agrupara fácilmente basándose en el estado de residencia y usted llamara al algoritmo k-media con la entrada k=20,, los resultados podrían ser demasiado generalizados para ser efectivos.

Por esta razón, a menudo es una buena idea experimentar con diferentes valores de k para identificar el valor que mejor se adapte a sus datos. También es posible que desee explorar el uso de otros algoritmos de minería de datos en su búsqueda de conocimientos aprendidos con máquinas.

TAMBIÉN TE INTERESA

dni en el móvil

Oficial: ya es posible llevar tu DNI en el móvil en España

Teníamos tarjetas bancarias, de salud, tarjetas para el transporte… pero faltaba lo más importante: el Documento Nacional de Identidad. Bueno pues desde ya es posible tener el DNI en el móvil en España. El Consejo de Ministros ha aprobado un real decreto que marca un antes y un después en la forma de acreditar la

vivo v50 Lite

Asequible y muy fino en todos los sentidos: sale a la venta el vivo v50 Lite

La marca vivo, de la cual hemos hablado recientemente por su estrategia a futuro con la robótica e IA, ha dado un nuevo paso adelante en la evolución de los smartphones con el lanzamiento del vivo V50 Lite en España. Este dispositivo combina un diseño sofisticado, potencia de alto rendimiento y resistencia excepcional, adaptándose a

estafas con criptomonedas

Estafas con criptomonedas: cómo no caer en ellas

Para bien o para mal, el sector de las criptomonedas ocupa asiduamente titulares en toda la prensa mundial. Y últimamente, las noticias giran en torno a la seguridad, así que no está de más recordar claves o consejos para evitar estafas con criptomonedas. Han pasado ya algunas semanas, pero conviene señalar dos recientes sucesos que

marca vivo

La marca vivo atisba un futuro con robots en nuestras casas

La industria tecnológica avanza a pasos agigantados, y en este escenario, la marca vivo se está postulando desde China como uno de los actores clave en la innovación digital. Durante la Conferencia Anual Boao Forum 2025 for Asia, celebrada en Boao, Hainan, la compañía ha presentado su nueva visión del futuro, marcada por la convergencia