Recomendación Utilizando la factorización de matrices
En la era del mundo digital, vemos recomendaciones en todas las áreas, en sitios web de comercio electrónico, sitios web de entretenimiento o sitios de redes sociales. La recomendación no solo le da al usuario su elección recomendada (basada en la actividad pasada), sino que también le informa sobre el comportamiento del usuario (análisis sentimental o IA emocional).
Primero, entendamos qué es la recomendación. Básicamente, está recomendando el artículo al usuario en función de su búsqueda/actividad pasada.
la Figura 1 indica Amazon recomendación basada en el pasado historial de navegación y las búsquedas anteriores. Por lo tanto, podemos decir que la recomendación es básicamente predecir el comportamiento futuro basado en el comportamiento pasado. Hay dos tipos de enfoques que se utilizan en el sistema de recomendación
1 – Filtrado basado en contenido
2 – Filtrado basado en colaboración
Filtrado basado en contenido-
Se basa en la idea de recomendar el elemento al usuario K, que es similar al elemento anterior altamente calificado por K. El concepto básico en el filtrado basado en contenido es TF-IDF (Frecuencia de término — frecuencia de documento inversa), que se utiliza para determinar la importancia del documento/palabra/película, etc. El filtrado basado en contenido muestra transparencia en la recomendación, pero a diferencia del filtrado colaborativo, no puede funcionar de manera eficiente para datos grandes
El filtrado basado en colaboración
Se basa en la idea de que las personas que comparten el mismo interés en cierto tipo de elementos también compartirán el mismo interés en algún otro tipo de elementos, a diferencia del basado en contenido que básicamente se basa en metadatos mientras se ocupa de la actividad de la vida real. Este tipo de filtrado es flexible para la mayor parte del dominio (o podemos decir que es libre de dominio), pero debido al problema de arranque en frío, la escasez de datos (que se manejó mediante factorización de matrices), este tipo de algoritmo enfrenta algún contratiempo en algún escenario.
Factorización de matrices
La factorización de matrices aparece en primer plano después de la competencia de Netflix (2006), cuando Netflix anunció un premio de 1 millón de dólares a aquellos que mejorarán su rendimiento de cuadratura media raíz en un 10%. Netflix proporcionó un conjunto de datos de entrenamiento de 100,480,507 calificaciones que 480,189 usuarios dieron a 17,770 películas.
La factorización de matrices es el método de filtrado basado en colaboración donde la matriz m * n se descompone en m * k y k * n . Se utiliza básicamente para el cálculo de la operación de matriz compleja. La división de la matriz es tal que si multiplicamos la matriz factorizada obtendremos la matriz original como se muestra en la Figura 2. Se utiliza para descubrir latente características entre dos entidades (puede ser utilizado para más de dos entidades, pero esto vendrá bajo el tensor de factorización)
La descomposición de la matriz se puede clasificar en tres tipos –
Descomposición de 1-LU-Descomposición de la matriz en matriz L y U donde L es la matriz triangular inferior y U es la matriz triangular superior, generalmente utilizada para encontrar el coeficiente de regresión lineal. Esta descomposición falló si la matriz no se pudo descomponer fácilmente
Descomposición de la matriz 2-QR-Descomposición de la matriz en Q y R donde Q es matriz cuadrada y R es matriz triangular superior (no es necesario cuadrado). Utilizado para análisis de sistemas propios
3-Descomposición de Cholesky – Esta es la descomposición más utilizada en el aprendizaje automático. Se utiliza para calcular el mínimo cuadrado lineal para regresión lineal La factorización de matrices se puede usar en varios dominios, como el reconocimiento de imágenes, la recomendación. Las matrices utilizadas en este tipo de problemas son generalmente escasas porque existe la posibilidad de que un usuario califique solo algunas películas. Hay varias aplicaciones para la factorización de matrices, como la reducción de dimensionalidad (para saber más sobre la reducción de dimensionalidad, consulte Maldición de la dimensionalidad), descomposición de valores latentes
Declaración de problemas
En la Tabla 1 tenemos 5 usuarios y 6 películas donde cada usuario puede calificar cualquier película. Como podemos ver, Henry no calificó para Thor y Rocky de manera similar, Jerry no calificó para Avatar. En el escenario del mundo real, estos tipos de matrices pueden ser muy dispersas
Nuestra declaración de problema es que tenemos que encontrar clasificaciones para películas no clasificadas como se muestra en la Tabla 1