Résumé:
Les systèmes de recommandation sont devenus une partie indispensable des services et des applications d'internet, en particulier dû à la surcharge de données provenant de nombreuses sources. Quel que soit le type, chaque système de recommandation a des défis fondamentaux à traiter. Dans ce travail, nous identifions trois défis communs, rencontrés par tous les types de systèmes de recommandation : les données, les modèles d'apprentissage et la protection de la vie privée.
Nous élaborons différents problèmes qui peuvent être créés par des données innappropriées en mettant l'accent sur sa qualité et sa quantité. De plus, nous mettons en évidence l'importance des réseaux sociaux dans la mise à disposition publique de systèmes de recommandation contenant des données sur ses utilisateurs, afin d'améliorer la qualité des recommandations. Nous fournissons également les capacités d'inférence de données publiques liées à des données relatives aux utilisateurs. Dans notre travail, nous exploitons cette capacité à améliorer la qualité des recommandations, mais nous soutenons également qu'il en résulte des menaces d'atteinte à la vie privée des utilisateurs sur la base de leurs informations. Pour notre second défi, nous proposons une nouvelle version de la méthode des k plus proches voisins (knn, de l'anglais k-nearest neighbors), qui est une des méthodes d'apprentissage parmi les plus populaires pour les systèmes de recommandation.
Notre solution, conçue pour exploiter la nature bipartie des ensembles de données utilisateur-élément, est évolutive, rapide et efficace pour la construction d'un graphe knn et tire sa motivation de la grande quantité de ressources utilisées par des calculs de similarité dans les calculs de knn. Notre algorithme KIFF utilise des expériences sur des jeux de données réelles provenant de divers domaines, pour démontrer sa rapidité et son efficacité lorsqu'il est comparé à des approches issues de l'état de l'art. Pour notre dernière contribution, nous fournissons un mécanisme permettant aux utilisateurs de dissimuler leur opinion sur des réseaux sociaux sans pour autant dissimuler leur identité. Notre algorithme Riposte est un algorithme réparti pour la diffusion d'informations (idées, nouvelles, opinions ou tendances) dans un réseau social. Il assure également qu'une information ne se répand largement que si (et seulement si) une grande partie des utilisateurs trouvent qu'elle est intéressante. En outre, si seulement quelques utilisateurs pensent qu'une information est intéressante, Riposte fait en sorte que le processus de diffusion de l'information meurt rapidement, pour limiter sa diffusion, et tout cela se fait dans le respect de la vie privée des utilisateurs.
Chacune de nos contributions, ainsi que leurs fondements théoriques, est soutenue par des expériences utilisant des ensembles de données réelles et variées.