当前位置：首页 >探索 >将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？将上下文长度扩展到256k

将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？将上下文长度扩展到256k

2024-05-16 09:09:38 [百科] 来源：避面尹邢网

将上下文长度扩展到256k，将上无限上下文版本的下文LongLLaMA来了？

作者：机器之心 2023-07-11 10:02:23人工智能新闻一个新的基于 OpenLLaMA 大型语言模型来了，它将上下文的长度长度扩展到 256k token，甚至更多。扩展该研究由 IDEAS NCBR 、无限文版波兰科学院、上下华沙大学、将上 Google DeepMind 联合完成。下文

今年 2 月，长度Meta 发布的扩展 LLaMA 大型语言模型系列，成功推动了开源聊天机器人的无限文版发展。因为 LLaMA 比之前发布的上下很多大模型参数少（参数量从 70 亿到 650 亿不等），但性能更好，将上例如，下文最大的长度 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B，所以一经发布让很多研究者兴奋不已。

然而，LLaMA 仅授权给学术界的研发人员使用，从而限制了该模型的商业应用。

将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？将上下文长度扩展到256k

因而，研究者开始寻找那些可用于商业用途的 LLaMA，UC 伯克利的博士生 Hao Liu 发起的项目 OpenLLaMA，就是其中一个比较热门的 LLaMA 开源复制品，其使用了与原始 LLaMA 完全相同的预处理和训练超参数，可以说 OpenLLaMA 完全按照 LLaMA 的训练步骤来的。最重要的一点是，该模型可商用。

将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？将上下文长度扩展到256k

OpenLLaMA 在 Together 公司发布的 RedPajama 数据集上训练完成，有三个模型版本，分别为 3B、7B 和 13B，这些模型都经过了 1T tokens 的训练。结果显示，OpenLLaMA 在多项任务中的表现都与原始 LLaMA 相当，甚至有超越的情况。

将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？将上下文长度扩展到256k

除了不断发布新模型，研究者对模型处理 token 的能力探索不断。

几天前，田渊栋团队的最新研究用不到 1000 步微调，将 LLaMA 上下文扩展到 32K。再往前追溯，GPT-4 支持 32k token（这相当于 50 页的文字），Claude 可以处理 100k token （大概相当于一键总结《哈利波特》第一部）等等。

现在，一个新的基于 OpenLLaMA 大型语言模型来了，它将上下文的长度扩展到 256k token，甚至更多。该研究由 IDEAS NCBR 、波兰科学院、华沙大学、 Google DeepMind 联合完成。

图片

LongLLaMA 基于 OpenLLaMA 完成，微调方法采用 FOT （ Focused Transformer ）。本文表明，FOT 可以用于对已经存在的大型模型进行微调，以扩展其上下文长度。

该研究以 OpenLLaMA-3B 和 OpenLLaMA-7B 模型为起点，并使用 FOT 对它们进行微调。由此产生的模型称之为 LONGLLAMAs，能够在其训练上下文长度之外进行外推（甚至可以达到 256K），并且在短上下文任务上还能保持性能。

项目地址：https://github.com/CStanKonrad/long_llama
论文地址：https://arxiv.org/pdf/2307.03170.pdf

有人将这一研究形容为 OpenLLaMA 的无限上下文版本，借助 FOT，模型很容易外推到更长的序列，例如在 8K token 上训练的模型，可以很容易外推到 256K 窗口大小。

图片

本文用到了 FOT 方法，它是 Transformer 模型中一种即插即用的扩展，可用于训练新模型，也可对现有的较大模型进行更长上下文微调。

为了达到这一目的，FOT 使用了记忆注意力层和跨批次（crossbatch）训练过程：

记忆注意力层使模型能够在推理时从外部存储器中检索信息，从而有效地扩展了上下文；
跨批次训练过程使模型倾向于学习（键，值）表示，这些表示对于记忆注意力层的使用非常简便。

有关 FOT 架构的概述，请参见图 2：

图片

下表为 LongLLaMA 的一些模型信息：

图片

最后，该项目还提供了 LongLLaMA 与原始 OpenLLaMA 模型的比较结果。

下图为 LongLLaMA 一些实验结果，在密码检索任务上，LongLLaMA 取得了良好的性能。具体而言，LongLLaMA 3B 模型远远超出了它的训练上下文长度 8K，对于 token 为 100k 时，准确率达到 94.5%，当 token 为 256k 时，准确率为 73%。

图片

下表为 LongLLaMA 3B 模型在两个下游任务（TREC 问题分类和 WebQS 问题回答）上的结果，结果显示，在使用长上下文时，LongLLaMA 性能改进明显。

图片

下表显示了即使在不需要长上下文的任务上，LongLLaMA 也能表现良好。实验在零样本设置下，对 LongLLaMA 和 OpenLLaMA 进行了比较。

图片

了解更多细节，可参考原论文与项目。

责任编辑：张燕妮来源：机器之心 AI模型

(责任编辑：热点)

相关内容

推荐文章

苏宁易购(002024)融资融券余额35.34亿元(03
苏宁易购(002024)2021年3月23日融资融券信息显示，苏宁易购融资余额3,515,840,678元，融券余额18,514,178元，融资买入额16,294,686元，融资偿还额11,938,9 ...[详细]
云闪付可以绑定别人的卡吗绑定后有哪些功能？
云闪付是一种非现金收付款移动交易结算工具，但消费者使用云闪付需要先绑定银行卡，而且借记卡和信用卡都可以。有小伙伴好奇，云闪付可以绑定别人的卡吗?下面一起去了解下。其实，云闪付是可以绑定别人名下银行卡的 ...[详细]
中国东航日均航班量恢复创新高航班运行顺畅有序
6月20日，作为上海最大的主基地航空公司，中国东航单日航班量创今年4月以来的新高，从4月最低值240班逐步恢复至当天计划执行的1274班，这是东航自6月10日以来实现的单日航班量连续第11天超千班。航 ...[详细]
002655股票共达电声公布消息：2020年员工持股计划第一个锁定期届满
002655股票共达电声公布，公司2020年员工持股计划第一个锁定期于2022年1月6日届满。至2022年1月6日，公司本次员工持股计划第一个锁定期已满12个月，所对应的股票178.668万股(占公司 ...[详细]
创纪录！全国煤炭产量达1205万吨煤矿优质产能进一步释放
11月11日，国家发改委微信公众号发布消息称，随着煤炭增产增供措施不断落地见效，煤矿优质产能进一步释放，寒潮后全国煤炭产量迅速恢复并快速提升。11月10日，煤炭调度日产量达到1205万吨，创历史新高， ...[详细]
百年老站焕发新颜亚洲最大铁路枢纽客站北京丰台站正式开通运营
6月20日，由中国铁建参建的亚洲最大铁路枢纽客站——北京丰台站正式通车运营，百年老站焕发新颜。自此，北京再添一座新地标，该站也成为助力京津冀协同发展的新支点。北京丰台站在原丰台 ...[详细]
炒股收入超过12万要申报吗缴纳个人所得税有几项？
纳税是每个公民应尽的义务，所以对很多新手来讲，对股票买卖并不是很了解，那么炒股收入超过12万要申报吗?应该要怎么申报纳税?想要知道答案的朋友，下面跟小编一起去看看吧。缴纳个人所得税有9项：工资所得、劳 ...[详细]
国家电投10万吨级燃煤燃机CCUS创新示范项目正式动工助力“绿色上海”
6月18日，国家电投上海电力长兴岛电厂10万吨级燃煤燃机CCUS创新示范项目正式动工，这意味着通过“碳捕集、利用与封存”技术(CCUS技术)把电厂排放的二氧化碳“变 ...[详细]
人寿保险有哪些险种中国人寿保险怎么样?
人寿保险有哪些险种?人寿保险的险种包括定期人寿保险，终身人寿保险，生存保险，生死两全保险，养老保险(由生存保险和死亡保险结合而成，是生死两全保险的特殊表现形式)等。此外，因为巨大灾难也成为了威胁人身安 ...[详细]
花呗怎么提升额度这几个技巧要记好
花呗额度太低，有时候想买比较规定的东西，都会有限制。所以，不少人都希望提高花呗的额度，比如从几千元额度提高至几万元。那么问题来了，花呗怎么提升额度呢?不知道方法的朋友，下面几个技巧能帮到你。1、完善资 ...[详细]

热点阅读

随机内容

友情链接

接受PR>=1、BR>=1，流量相当，内容相关类链接。