¿Cómo ejecutar K significa empaquetar Python?

los k significa agrupar Python es uno de los métodos de aprendizaje automático poco sorprendentes que se aplican para identificar grupos de objetos de datos dentro de un conjunto de datos. Hay varios tipos de métodos de agrupación, pero se ha visto que k medias es el método de agrupación más antiguo y preferido. Por esta razón, el agrupamiento de k-means en Python es el método simple adoptado por varios programadores y científicos de datos. Si desea saber cómo implementar la agrupación en clústeres de Python k-means, siga navegando por el blog. En este blog, hemos cubierto todos los detalles necesarios sobre el agrupamiento de K-mean, y también se detalla un ejemplo para ayudarlo a comprender cómo funciona el agrupamiento.

Índice de contenidos
  1. ¿Qué son los clustering y su aplicación?
  2. ¿Cuáles son las diferentes técnicas de agrupación?
    1. Agrupación parcial
    2. Agrupamiento basado en la densidad
    3. Agrupación jerárquica
  3. ¿Cuál es el método más útil para k significa agrupar a Python?
    1. ENTENDIENDO EL ALGORITMO DE K-MEDIAS
  4. Un ejemplo de k significa agrupar Python
  5. Conclusión

¿Qué son los clustering y su aplicación?

La agrupación en clústeres se define como el conjunto de métodos utilizados para separar o particionar datos en clústeres y grupos. Los clústeres son grupos de objetos de datos similares a otro objeto dentro del clúster (como el de los objetos de datos de otros clústeres). En la práctica, los clústeres ayudan a identificar las dos calidades de datos diferentes:

Grupo de importancia Grupo de servicios públicos
Amplía el dominio del conocimiento. Sirve como un paso intermedio para la canalización de datos.
Por ejemplo, varios investigadores han utilizado el método de agrupamiento en el campo de la medicina para realizar experimentos de expresión génica. Este método da como resultado la identificación de pacientes que responden de manera opuesta al tratamiento médico particular. Por ejemplo, varias empresas utilizan el concepto de agrupamiento para la segmentación de clientes. En qué clústeres se incluye al cliente que realiza compras similares gracias a las cuales las empresas pueden crear fácilmente campañas publicitarias dirigidas.

Aparte de estas, muchas otras aplicaciones de k significa agrupar Python, como el análisis de redes sociales y la agrupación de documentos. Por tanto, se puede concluir que estas aplicaciones son apropiadas en casi todos los sectores. Es por eso que la agrupación se convierte en una habilidad valiosa para los expertos que trabajan con diferentes datos.

¿Cuáles son las diferentes técnicas de agrupación?

Elegir los algoritmos de agrupamiento relevantes para el conjunto de datos específico siempre es un desafío, ya que hay varias opciones disponibles. Hay algunos de los parámetros esenciales que siempre afectan la decisión, como las características del conjunto de datos, las características del clúster, la cantidad de objetos de datos y la cantidad de valores atípicos. A continuación, mencionamos las 3 categorías más populares de algoritmos de agrupamiento:

  1. Agrupación parcial
  2. Agrupamiento basado en la densidad
  3. Agrupación jerárquica

Agrupación parcial

Separe los objetos de datos del grupo que no se superpone. O podemos decir que ningún objeto puede ser miembro de varios grupos y cada grupo tiene al menos un único objeto.

En esta técnica, el usuario debe declarar el número de conglomerados, los cuales se indican con la variable k Varios algoritmos de agrupación en clústeres de partición siempre funcionan como un proceso iterativo para especificar el conjunto de datos particular del objeto de datos en el archivo. k racimo. K-medoide y k-medio son ejemplos de algoritmos de agrupamiento de particiones.

Agrupamiento basado en la densidad

Analiza las asignaciones de clústeres en función de la densidad de puntos de datos en una región determinada. El clúster se asigna en la región donde las regiones de baja densidad clasifican los puntos de datos de alta densidad.

Al igual que con otras categorías de conglomerados, no es necesario declarar números de conglomerados. Sin embargo, los factores basados ​​en la distancia siempre actúan como un umbral ajustable (el umbral puede analizar qué tan cerca se pueden considerar los puntos de un miembro del clúster). ÓPTICA (Puntos de pedido para identificar la estructura de agrupamiento) e Ruido son algunos de los ejemplos de algoritmos de clúster basados ​​en la densidad.

Agrupación jerárquica

También analiza las asignaciones de clústeres mediante la creación de una jerarquía específica. Puede utilizar dos enfoques diferentes, a saber:

Agrupación divisiva: El enfoque de arriba hacia abajo siempre comienza con puntos como un solo grupo y divide el grupo menos similar en la fase específica hasta que permanece el único punto de datos.
Agrupación de aglomeración: El enfoque de abajo hacia arriba siempre une los dos puntos similares hasta que los puntos se unen como un solo grupo.

Esta técnica produce la jerarquía de árbol de varios puntos, y estos se conocen como dendrograma. Al igual que en la agrupación de particiones, los números de agrupación (k) siempre están predestinados por el usuario.

¿Cuál es el método más útil para k significa agrupar a Python?

ENTENDIENDO EL ALGORITMO DE K-MEDIAS

Se ha observado que un promedio de k convencional requiere solo unos pocos pasos para realizarse. Esto comienza con la selección. k centroides, donde el valor de k = el número de grupos que ha seleccionado. centroides son los puntos de datos especializados que representan el centro del grupo.

los k significa agrupar Python los componentes centrales del algoritmo siempre funcionan en un proceso de dos pasos conocido como maximización de expectativas. Inicialmente, el paso de expectativa cada punto de datos lo asigna a un centroide específico más cercano a él. Luego, con la ayuda del paso de maximización, es posible calcular los puntos más cercanos. Este algoritmo funciona como:

Especifique el número de k clústeres a los que asignar el valor. Inicialización aleatoria del k centroide.Repetir el proceso.Expectativa: Asignando cada punto a su centro de gravedad más cercano.Maximización: Cálculo de la media (o nuevo centro de gravedad) de cada clúster. Siempre que la posición del centro de gravedad no cambie.

La calidad de las asignaciones de conglomerados se puede determinar calculando el SSE (error cuadrático) después de hacer coincidir la asignación de la iteración anterior o usando la convergencia del centroide. SSE mide el error que está tratando de minimizar el valor de k media. La figura que se menciona a continuación puede mostrar SSE y centroides actualizando las primeras cinco iteraciones en las diferentes ejecuciones.

En esta figura es posible verificar la inicialización del centro de gravedad particular. También destaca el objetivo de SSE que utiliza para medir el rendimiento de la agrupación. Una vez que se han elegido los diferentes grupos y se han inicializado los centroides, el paso de maximización de la expectativa se repetirá hasta que la posición del centroide converja y permanezca sin cambios.

Un ejemplo de k significa agrupar Python

Crear el marco de datos para el conjunto de datos 2D

Para comenzar con el ejemplo, tomemos un ejemplo del siguiente conjunto de datos 2D:

X y
22 78
35 51
20 52
25 76
32 57
31 72
20 71
34 55
32 67
sesenta y cinco 73
52 49
55 30
42 38
50 45
55 51
57 34
50 33
63 56
45 57
47 48
46 23
33 18
31 12
43 10
45 18
36 3
41 27
51 6
44 5

Puede escribir datos para k significa agrupar Python con la ayuda de Pandas DataFrame.

de panda importa DataFrame
Datos = {'x': [22,35,20,25,32,31,20,34,32,65,52,55,42,50,55,57,50,63,45,47,46,33,31,43,45,36,41,51,44]'y': [78,51,52,76,57,72,71,55,67,73,49,30,38,45,51,34,33,56,57,48,23,18,12,10,18,3,27,6,5]
} df = Marco de datos(Datos, columnas =[‘x’,’y’])Prensa (fd)

Producción:

X y
22 78
1 35 51
2 20 52
3 25 76
4 32 57
5 31 72
6 20 71
7 34 55
8 32 67
9 sesenta y cinco 73
10 52 49
11 55 30
12 42 38
13 50 45
14 55 51
15 57 34
dieciséis 50 33
17 63 56
18 45 57
19 47 48
20 46 23
21 33 18
22 31 12
23 43 10
24 45 18
25 36 3
26 41 27
27 51 6
28 44 5

K significa agrupamiento de Python (3 clústeres)

Una vez que haya terminado de crear el marco de datos basado en el conjunto de datos anterior, debe importar algunos de los módulos adicionales de Python:

  • matplotlib - para crear gráficos en Python
  • aprender - para aplicar el k significa Clustering Python

El siguiente código se utiliza para declarar el número de clústeres. Para entender esto, tomemos un ejemplo de 3 clústeres:

KMeans (n_cluster = 3) .fit (df)

desde panda, importamos DataFrameimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeans
Datos = {'x': [22,35,20,25,32,31,20,34,32,65,52,55,42,50,55,57,50,63,45,47,46,33,31,43,45,36,41,51,44]'y': [78,51,52,76,57,72,71,55,67,73,49,30,38,45,51,34,33,56,57,48,23,18,12,10,18,3,27,6,5]
} df = DataFrame (Datos, columnas =[‘x’,’y’]) kmmedias = Kmmedia (n_cluster = 3.fit (df) centroides = kmeans.cluster_centers_Prensa(centroides)
plt.dispersión (df[‘x’]d.f.[‘y’]c = kmeans.labels_.astype (float), s = 30, alpha = 0.6) plt.scatter (centroides[:, 0]centroides[:, 1]c = 'rojo', s = 30) plt.mostrar ()

Ejecute el código anterior y podrá verificar los 3 grupos en 3 centroides diferentes:

Tenga en cuenta que el centro de cada grupo (en rojo) describe el promedio de las observaciones, que pertenece a un grupo en particular. Además, puedes analizar que las observaciones están mucho más cerca del centro del conglomerado que de los centros de otros conglomerados.

Conclusión

K significa empaquetar Python es uno de los conceptos que entran en la categoría de sin supervisión métodos de aprendizaje automático. Además, su algoritmo se utiliza para encontrar grupos en datos no etiquetados. Este blog mencionó los detalles sobre las técnicas de agrupamiento y creó el DataFrame para el conjunto de datos 2D. Además, hemos explicado un ejemplo para encontrar el centro de gravedad de 3 clústeres. Si tiene algún problema con el concepto de agrupación, puede contactarnos y hacer su pregunta a nuestros expertos comentando en la sección de comentarios. Le proporcionaremos una solución de calidad relacionada con su solicitud. Así que sigue aprendiendo y sigue practicando. Le brindamos la mejor ayuda de programación Python de bajo costo.

¿Ha sido útil el contenido?

Promedio de puntuación 0 / 5. Votos: 0

Hasta ahora, ¡no hay votos!. Sé el primero en puntuar este contenido.

Más contenido relacionado

Subir