今天和大家分享的是一篇学习笔记,关于——“基于个人信息的自动化决策“【关于征求国家标准《信息安全技术 基于个人信息的自动化决策安全要求》(征求意见稿)意见的通知】中最重要也是最常见的一种形式:推荐系统的工作原理。
个性化算法是当今最普及的人工智能形式,并完全控制了我们的在线生活。以下是推荐系统的简要工作原理:
数据收集:网站和应用追踪用户互动,如点赞、评论、转发、用户的人口统计信息,以及用户购买的交易数据,以构建和完善个性化算法。现在我们已经有了数据,通常有三种方法可以应用:
1. 协同过滤
总的来说,协同过滤是基于用户-项目的交互数据,利用如皮尔逊相关性或余弦相似性这样的相似度指标。
在协同过滤中的“用户-用户方法”中,算法识别出具有相似交互模式的用户,并基于这些相似用户的偏好来推荐物品。它找到与你相似的用户,看看他们喜欢什么,然后推荐那些帖子给你。
在“项目-项目方法”中,算法基于用户的评分或互动方式来计算物品之间的相似性。在这种情况下,物品是基于它们是否一起被购买来被评定为相似的。亚马逊的“用户还购买了”推荐使用项目-项目协同过滤方法。
2. 基于内容的过滤
在这种方法中,物品在特征空间中被表示出来。特征可以简单到标签,也可以复杂到自然语言处理中的词嵌入。用户的个人资料也在同一特征空间中被表示。
算法计算用户资料和特征空间中的每一项之间的相关性得分。常用的技术如余弦相似性或欧几里得距离。
然后,它推荐在该特征空间中接近用户的物品。
3. 混合方法
现代方法结合了协同和基于内容的过滤方法。例如,如果你有大量的新物品和一个不断变化的文集(例如Twitter上的帖子),这时候只能使用帖子的内容,而不是互动来向用户推荐。
在神经网络出现之前,矩阵分解常被用于推荐。这是一种数学技术,用于将大矩阵分解成小矩阵,在此过程中捕获隐藏或潜在的特征。它用于近似用户-物品交互,帮助预测偏好并进行个性化推荐。
4. 现状
如今,几乎所有现代推荐AI都基于神经网络。最先进的推荐系统使用变形器(transformer)。变形器可以有效地处理序列并在数据中捕获长距离的依赖关系。变形器中的自注意机制使它们能够权衡输入的不同部分的重要性,为用户行为提供了细致的理解。它们还可以处理多模态数据,如文本、图像和数字特征,使它们适应复杂的推荐场景。
基于深度学习的推荐系统有很多动态部分,因为通常需要对数据进行大量的预处理和重新训练。对于实时推荐,必须实时地将用户互动,如点击或喜欢,流式传输到应用的AI系统。
运行这些系统的最佳方式是使用端到端的MLOps系统,该系统协调所有部分,帮助训练和比较多个模型,然后设置模型管道。
尽管这些系统构建和维护相对复杂,但其投资回报是不可否认的。通过推荐给用户他们甚至可能不知道自己想要的东西,它们可以提高用户的参与度和收入高达25-30%。
声明:本文来自网安寻路人,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。