¿Qué es Minería de Datos?

¿Qué es Minería de Datos?

¡Hola Geekalt42ros!

Hoy vengo a hablarles de una herramienta que está muy involucrada con Data Science, que es la minería de datos.

Sin decirles definiciones de Wikipedia, la minería de datos se encarga de encontrar relaciones entre los datos que no son obvias o intuitivas, y con estas relaciones, encontrar posibles mejoras de negocio o una construcción de estrategias tanto de negocio así como para entrenar algún algoritmo inteligente que nos ayude a tomar decisiones.

Hay una gran variedad de técnicas para minería de datos, por nombrar algunas, existen: Clustering, Classification, Decision Trees, Neural Networks, Association Rules, Regression, entre otros. Los que me gustaría exponer son los algoritmos de Clustering, Decision Trees y Association Rules.

Clustering

La técnica de clustering nos ayuda a agrupar objetos, de tal manera que existan la mayor cantidad de grupos posibles y que cada uno de los grupos sea muy diferente de los demás.

Por ejemplo, supongamos que somos los dueños de una empresa que vende autos de lujo, y nos planteamos el objetivo de aumentar nuestras ventas en un 8%. Una manera inteligente de buscar este objetivo con el uso de la minería de datos, sería por medio de Clustering. Aplicando un algoritmo de clustering, podemos obtener muchísimos clusters útiles que nos puedan ayudar a tomar esta decisión.

Supongamos que el algoritmo nos arroja 10 clusters, algunos ejemplos de clusters serían:

  1. Cluster donde se observa que las personas que tienen casa propia, tienen más de un coche de lujo.
  2. Cluster donde se observa que las personas que tienen un sueldo menor a 40,000 pesos, no tienen un coche de lujo.
  3. Cluster donde se observa que las personas que tienen dos baños en su casa, tienen un coche de lujo (¿?)

Aunque el tercer cluster parezca bastante ridículo por los tipos de atributos que estamos analizando de nuestros clientes, ese tipo de relaciones extrañas o no intuitivas son las que nos arrojan las técnicas de minería de datos.

Cabe resaltar que mientras más atributos tengamos en nuestros datasets, podemos encontrar muchas más relaciones en nuestros datos, y en el caso de clustering, podemos obtener a lo mejor más o menos clusters, que pueden ser de muchísima utilidad.

Decision Trees

La técnica de Decision Trees funciona así:

Nosotros entregamos como entrada un atributo de nuestro data set, ya sea Edad, Puesto laboral ó Salario, y se forma un árbol en donde podemos observar ciertas relaciones.

Un ejemplo, tomando en cuenta el atributo del puesto, se puede observar que el 75% de los Ingenieros en Sistemas Computacionales tienen un salario entre 10,000 pesos mensuales y 60,000 pesos mensuales en promedio, o podríamos analizar que el 80% de los ingenieros en sistemas computacionales ven anime (nada sorprendente). Estos ejemplos no nos dicen mucho, pero, imaginemos que somos Motorola y  analizamos la compañía telefónica de nuestro mercado, y encontramos que el 60% de las personas que utilizan Telcel tienen un iPhone? Eso tal vez podría abrir el panorama para elegir estrategias de venta o marketing.

¿Y esto pa’ que? ¡Excel también lo hace!

En teoría sí, pero los arboles de decisiones se pueden expandir a un nivel muy amplio, mostrándonos relaciones súper importantes y no tan visibles. Un ejemplillo así rápido.

Association Rules

Para empezar, quisiera que repasemos el teorema de la transitividad.

Si A->B y B->C, entonces A->C. Sencillo no?

La técnica de Association Rules nos arroja un montón de reglas de asociación, como en lógica. Si un evento ocurre, entonces el otro evento también ocurrirá.

La ventaja de esta técnica es que podemos conocer la certeza con la que las reglas van a ocurrir, un ejemplo muy sencillo: Si Netflix cierra sus servicios por un mes, entonces los clientes se mudarán a Blim (accurate: 60%). 

Ahora, qué tal si aplicamos la regla de la transitividad?

Si los clientes se mudan a Blim, entonces Netflix no podrá recuperar a sus usuarios (accurate: 40%)

Este tipo de reglas puede aventar esta técnica, pero recuerden, mientras más datos tengamos en nuestra fuente de datos, más información útil podremos recolectar.

Si les quedó alguna duda de este tema o quieren dialogar acerca de, dejen un comentario en el post o mándenme un correo a lguitarras0594@gmail.com.

¡Después de casi dos meses ausente por cuestiones laborales y escolares, aquí volvemos!

Written by Alberto Romero

Software developer intern @VoxFeed. Experiencia con Java, C#, desarrollo para Android y algunas tecnologías web como Golang, Python, Javascript y los tipicos de front end que ya se los saben de memoria. Me encanta la música y me gustan los videojuegos (especialmente DotA). Abierto a debate, conversaciones espontáneas y #random.

Deja un comentario

A %d blogueros les gusta esto: