当前位置：首页 >综合 >你的朋友也在看！谷歌STUDY算法加持书单推荐系统，让学生爱上阅读你的朋读朋友也在看

你的朋友也在看！谷歌STUDY算法加持书单推荐系统，让学生爱上阅读你的朋读朋友也在看

2024-05-16 13:33:46 [百科] 来源：避面尹邢网

你的朋读朋友也在看！谷歌STUDY算法加持书单推荐系统，友也让学生爱上阅读

作者：新智元 2023-09-07 13:16:27人工智能 Learning Ally是看谷一家教育非营利组织，拥有一个针对学生的算法书单生爱上阅大型精选有声读物数字图书馆，非常适合构建社交推荐模型。加持这能使模型能够从有关学生本地化社交群体的推荐（如教室）实时信息中获益。

开卷有益，系统是让学我们一直以来的认识。阅读可以帮助人们提高自己的朋读语言能力、学习到新的友也技能....

阅读还能够改善情绪，提高心理健康水平。看谷经常阅读的算法书单生爱上阅人有更丰富的常识以及对其他文化更深入的理解。

你的朋友也在看！谷歌STUDY算法加持书单推荐系统，让学生爱上阅读你的朋读朋友也在看

并且，加持有研究证实愉悦阅读与学业成功相关。推荐

你的朋友也在看！谷歌STUDY算法加持书单推荐系统，让学生爱上阅读你的朋读朋友也在看

但在信息爆炸的系统时代，线上与线下的阅读资源都十分丰富。读什么，就成为了一项艰巨的挑战。

你的朋友也在看！谷歌STUDY算法加持书单推荐系统，让学生爱上阅读你的朋读朋友也在看

尤其是阅读的内容既要匹配不同的年龄阶段，又要引人入胜。

而推荐系统则是这个挑战的解决方案。它能够向读者呈现相关的阅读材料，并帮助他们保持阅读的兴趣。

推荐系统的核心是机器学习（Machine learning, ML），它被广泛应用于构建各种类型的推荐系统中：从视频到图书，再到电商平台等。

经过训练的ML 模型可以根据用户偏好、用户参与度和推荐的项目单独向每个用户进行推荐，从而改善用户体验。

谷歌最新的研究提出了一种考虑到阅读的社会性质（如教育环境）的有声读物内容推荐系统：STUDY算法。

由于一个人的同龄人目前正在阅读的内容会对他们感兴趣的阅读内容有重大影响，因此，谷歌与Learning Ally进行了合作。

Learning Ally是一家教育非营利组织，拥有一个针对学生的大型精选有声读物数字图书馆，非常适合构建社交推荐模型。

这能使模型能够从有关学生本地化社交群体的（如教室）实时信息中获益。

STUDY算法

STUDY算法采用了将推荐内容问题建模为点击率预测问题的方法。

其中模拟用户与每个特定项目的交互概率取决于：

1）用户和项目特征

2）该用户的项目交互历史序列。

之前的工作表明Transformer模型非常适合建模这个问题。

当单独处理每个用户时，模拟交互就成为了一个自回归序列建模问题。

STUDY算法是通过这一概念框架对数据建模，然后对这个框架进行扩展的最终成品。

点击率预测问题可以对个别用户过去和未来的项目偏好之间的依赖关系进行建模，并且可以在训练时学习用户之间的相似性模式。

但有一个问题是，点击率预测的方法无法对不同用户之间的依赖关系进行建模。

为此，谷歌开发了STUDY模型，可以解决自回归序列建模中无法对阅读的社会性质进行建模的缺陷。

STUDY可以将多个学生在一个课堂上阅读的书籍序列连接成一个序列，从而在一个模型中收集多个学生的数据。

但是，在用Transformer对这种数据表示进行建模时，需要仔细研究这种数据表征。

在Transformer中，注意力掩码是控制哪些输入可用于预测哪些输出的矩阵。

在序列中使用所有先前的token来为输出的预测提供信息的模式，会导致上三角形注意力矩阵，它一般会在因果解码器中被发现。

然而，由于输入进STUDY模型的序列不是按时间顺序的，尽管它的每个组成子序列都是按时间顺序，传统的因果解码器也不再适合这种序列。

在试图预测每个token时,模型不允许注意力转向序列中出现在它之前的每个token；其中一些token可能具有较晚的时间戳，并包含在部署时不可用的信息中。

图片

因果解码器中通常使用的注意力掩码。每一列代表一个输出，每一列代表一个输出。矩阵条目在特定位置的值为1（显示为蓝色），表示模型在预测相应列的输出时可以观察到该行的输入，而值为0（显示为白色）则表示相反。

STUDY 模型以因果转换器为基础，将三角矩阵注意力掩码替换为基于时间戳的灵活注意力掩码，从而允许跨不同子序列的注意力。

与普通转换器相比，STUDY 模型在一个序列中保持一个因果三角注意矩阵，并在不同序列中具有灵活的值，这些值取决于时间戳。

因此，序列中任何输出点的预测都会参考相对于当前时间点过去发生的所有输入点，无论它们是出现在序列中当前输入点之前还是之后。

这一因果约束非常重要，因为如果在训练时不执行这一约束，模型就有可能学会利用未来的信息进行预测，而这在现实世界的部署中是无法实现的。

图片

(a)一个具有因果注意力的顺序自回归变换器，它可以单独处理每个用户；(b)一个等效的联合前向传递，其计算结果与(a)相同；(c)通过在注意力掩码中引入新的非零值（紫色显示），允许信息在用户间流动。为此，研究者允许预测以时间戳较早的所有交互为条件，而不论交互是否来自同一用户

实验

谷歌使用Learning Ally数据集来训练STUDY模型，并使用多个基线进行比较。

团队使用了自回归点击率转换解码器（称之为「个人」）、k-近邻基线（KNN）和可比较的社会基线——社会注意力记忆网络（SAMN）。

他们使用第一学年的数据进行训练，使用第二学年的数据进行验证和测试。

团队通过测量用户实际交互的下一个项目，在模型的前n个建议中的时间百分比，来评估这些模型。

除了在整个测试集上对模型进行评估外，团队还报告了模型在测试集的两个子集上的得分，这两个子集比整个数据集更具挑战性。

可以观察到，学生通常会与有声读物进行多次互动，因此，简单地推荐用户阅读的最后一本书，就显得微不足道。

因此，研究者将第一个测试子集称为「非延续」，在这个子集中，我们只考察每个模型在学生与不同于前一次互动的书籍进行互动时的推荐性能。

另外，团队还观察到，学生们会重温他们过去读过的书，因此，将为每个学生推荐的书本限制在他们过去读过的书本范围内，就可以在测试集上取得很好的表现。

尽管向学生推荐他们过去最喜欢的书籍可能有一定的价值，但推荐系统的大部分价值还是来自于向用户推荐新的、未知的内容。

为了衡量这一点，团队在测试集的子集上对模型进行了评估，在这个子集上，学生们第一次与书目进行交互。我们将这个评估子集命名为「新子集」。

可以发现，「STUDY 」在几乎所有评估中，都优于其他模型。

图片

适当分组的重要性

STUDY算法的核心是将用户分组，并在模型的单次前向传递中对同组的多个用户进行联合推断。

研究人员通过一项消融研究，考察了实际分组对模型性能的重要性。

在提出的模型中，研究人员将同一年级和学校的所有学生进行分组。

然后试验了由同一年级和同一学区的所有学生定义的分组，以及将所有学生归入一个组中，并在每次前向传递时使用随机子集的分组。

研究人员还将这些模型与「个人」模型进行了比较，以供参考。

研究发现，使用更本地化的小组更有效，即学校和年级分组优于学区和年级分组。

这支持了一个假设，即研究模式之所以成功，是因为阅读等活动具有社会性：人们的阅读选择很可能与周围人的阅读选择相关联。

在不使用年级对学生进行分组的情况下，这两种模式的表现都优于其他两种模式（单一小组模式和个人模式）。

这表明，阅读水平和兴趣相似的用户的数据有利于提高模型的性能。

最后，谷歌的这项研究是仅限于假定社交关系是同质的用户群进行建模的。

参考资料：

https://ai.googleblog.com/2023/08/study-socially-aware-temporally-causal.html

责任编辑：武晓燕来源：新智元推荐模型信息教育

(责任编辑：焦点)

相关内容

推荐文章

泰山石化(01192.HK)发布公告：预期2020年盈转亏
泰山石化(01192.HK)公告，相对于去年同期盈利，预期集团于截至2020年12月31日止年度将录得亏损。上述亏损并未计及7800万港元可换股债券及相关利息，尤其是该笔款项是否应予拨回或留存于公司其 ...[详细]
泰勒·斯威夫特照片被滥用，生成式AI让Deepfake变得廉价且简单
来源：DeepTech深科技嗨，泰勒·斯威夫特Taylor Swift），我们对最近发生在你身上的事情感到遗憾。看到 X 平台上传播的那些关于你的深度伪造色情内容，我能想象到你的心情，恶心、苦恼，甚至 ...[详细]
农家乐暗藏“百家乐”！绵阳涪城警方捣毁一聚众赌博窝点，5人被刑拘
1月30日，四川绵阳市公安局涪城区分局发布消息称，近日，该局捣毁一个聚众赌博窝点，现场传唤涉赌人员15人，缴获赌资8万余元。经查，犯罪嫌疑人陈某、黄某等人，在一偏僻的农家乐内，利用网络连接境外赌博网站 ...[详细]
“拖堂”半小时，这场面对面交流后，为何局长直呼大受启发？
“不仅委员们带着问题，很多市级相关部门负责人也带着工作疑惑有备而来。”成都进入两会时间，1月30日，在成都市政协十六届二次会议“委员·局长面对面”现场咨询交流活动现场，成都市政协委员，成都市科技局党组 ...[详细]
RCEP将于明年1月1日正式生效商务部将出台指导意见
《区域全面经济伙伴关系协定》(RCEP)即将于明年1月1日正式生效，在11月11日召开的商务部例行新闻发布会上，商务部新闻发言人束珏婷介绍，目前，国内实施RCEP的各项准备已经就绪，能够确保协定生效时 ...[详细]
最新调查记录到161只卷羽鹈鹕
卷羽鹈鹕在沙洲上集群栖息。本报讯记者李晨）卷羽鹈鹕是一种体长约175厘米的大型食鱼类游禽、国家一级重点保护鸟类，被世界自然保护联盟IUCN红色名录列为近危NT）物种。为了精确掌握卷羽鹈鹕东亚种群的数量 ...[详细]
广州开出春运首趟爱心专列
免费送老乡回家新快报讯记者许力夫通讯员黄惠萍胡靖报道 “我们要回家过年咯！”1月30日7时4分，载有320名贵州安顺籍在粤务工人员的D1846次列车驶离广州南站，一路向西驰往贵州。据铁路部 ...[详细]
马斯克Neuralink将首颗大脑芯片植入人体，长期目标希望让数十亿人受益
来源：DeepTech深科技当地时间 1 月 29 日，埃隆·马斯克Elon Musk）在 X前推特）上发帖表示，由他所创立的初创企业 Neuralink，已经将第一颗大脑芯片植入人体，并且患者“恢复 ...[详细]
中国医疗集团(08225.HK)发布公告：预计年度税后纯利大幅增加不少于100%
中国医疗集团(08225.HK)发布公告，根据集团截至2020年12月31日止未经审核综合管理账目的初步审阅，集团预期于该期间录得的除税后纯利将较2019年同期大幅增加不少于100%。上述除税后纯利增 ...[详细]
人类的三大本质，注定了这游戏就得火
来源：游戏研究社1月25日，《暗区突围》上线了全新大版本“导火索”。从玩法层面讲，新版本已开放普瑞森矿洞，未来还将解锁埃尔米拉矿区和全新载具等一大票内容。随着新版本的曝光，相关资讯、信息解读随之集中爆 ...[详细]

热点阅读

随机内容

友情链接

接受PR>=1、BR>=1，流量相当，内容相关类链接。