Una de las técnicas de Data Mining que también se ha dado a conocer con el auge del Big Data es la del “flitrado colaborativo” (Collaborative Filtering) utilizada en sistemas de recomendaciones en plataformas web como por ejemplo la de Amazon (cuyo volumen de datos sí hace presumir un uso de soluciones Big Data para llevar a cabo esa minería de datos). Esta es una de las técnicas que utilizan dichos sistemas para resolver el problema de cómo saber qué elementos de un catálogo de productos se pueden recomendar a un usuario, basándonos en sus valoraciones de otros productos y en las que todos los usuarios en general han ido emitiendo sobre el total del catálogo.
Si nos tuviéramos que enfrentar a dicho problema, una posible aproximación sería la de tener detallado nuestro catálogo de productos según una serie de características, etiquetas, etc. Si pensamos en un catálogo de películas, estaríamos hablando de tener etiquetado el grado en que cada película corresponde a la categoría de “comedia” o “acción”, por ejemplo. Al conocer y tener clasificadas esas características a priori lo que conseguiríamos es que, cuando los usuarios valorasen los diferentes productos (o simplemente cuando creasen su perfil, indicándonos el tipo o características de los productos en los que están interesados), estarían dejando una huella de las características que comparten aquellos productos que valoran más positivamente. De esa manera, las recomendaciones podrían basarse en otros productos que también estén etiquetados con esas características y que el resto de usuarios también ha valorado positivamente.
En la práctica, la técnica que acabamos de describir (“filtrado basado en el contenido”) se enfrenta al problema de que no siempre podemos asumir que contamos con esa información detallada que caracterice el catálogo en su totalidad o los gustos generales de los usuarios. De hecho, si pensamos en un sistema que requiera de tecnologías Big Data (un catálogo como el antes citado de Amazon, por ejemplo), el volumen del banco de datos implicaría un costoso trabajo de etiquetado. Sería por tanto interesante contar con alguna manera de facilitar dicha identificación de productos recomendables sin tener que “pagar el peaje” de un etiquetado o caracterización explícitos.
Aquí es donde entra en juego la técnica del “filtrado colaborativo”, donde son las propias valoraciones (el habitual valor de 0 a 5, por ejemplo) que los usuarios hacen de los productos en catálogo las que, analizadas a través del Data Mining, nos permiten detectar patrones subyacentes en dichos datos e inferir una serie de características sobre los productos y el grado en que cada característica está presente en ellos. Es probable que esas características generadas computacionalmente no sean fáciles de interpretar o de hacer casar con una etiqueta tan clara como “comedia” o “acción” (siguiendo con el ejemplo anterior de las películas), pero en todo caso la comparación y puesta en relación de esas características digamos “abstractas” extraídas de los datos nos permitirá inferir productos recomendables para un usuario (productos que dicho usuario aún no ha valorado pero para los que el sistema predice que la valoración que les daría sería alta).
En la práctica, la técnica que acabamos de describir (“filtrado basado en el contenido”) se enfrenta al problema de que no siempre podemos asumir que contamos con esa información detallada que caracterice el catálogo en su totalidad o los gustos generales de los usuarios. De hecho, si pensamos en un sistema que requiera de tecnologías Big Data (un catálogo como el antes citado de Amazon, por ejemplo), el volumen del banco de datos implicaría un costoso trabajo de etiquetado. Sería por tanto interesante contar con alguna manera de facilitar dicha identificación de productos recomendables sin tener que “pagar el peaje” de un etiquetado o caracterización explícitos.
Aquí es donde entra en juego la técnica del “filtrado colaborativo”, donde son las propias valoraciones (el habitual valor de 0 a 5, por ejemplo) que los usuarios hacen de los productos en catálogo las que, analizadas a través del Data Mining, nos permiten detectar patrones subyacentes en dichos datos e inferir una serie de características sobre los productos y el grado en que cada característica está presente en ellos. Es probable que esas características generadas computacionalmente no sean fáciles de interpretar o de hacer casar con una etiqueta tan clara como “comedia” o “acción” (siguiendo con el ejemplo anterior de las películas), pero en todo caso la comparación y puesta en relación de esas características digamos “abstractas” extraídas de los datos nos permitirá inferir productos recomendables para un usuario (productos que dicho usuario aún no ha valorado pero para los que el sistema predice que la valoración que les daría sería alta).
No hay comentarios:
Publicar un comentario