当前位置:首页 >娱乐 >语言差异成AI鸿沟?牛津新研究汉语训练费用是英语2倍 缅甸掸语在15倍以上

语言差异成AI鸿沟?牛津新研究汉语训练费用是英语2倍 缅甸掸语在15倍以上

2024-05-28 23:14:08 [百科] 来源:避面尹邢网

如今各大科技企业都在加速布局AI项目,语言研究英语不过也许世界各国的差异成语言成为不小的障碍。

大型语言模型(LLM)可以理解世界上很多语言,鸿汉语甚至是沟牛一些记载较少的语言。不过,津新大模型处理不同语言之间时,训练其性能上存在很大的费用差异,这是语言研究英语由于模型成本与其所训练的语言紧密挂钩。

语言差异成AI鸿沟?牛津新研究汉语训练费用是英语2倍 缅甸掸语在15倍以上

语言差异成AI鸿沟?牛津新研究汉语训练费用是差异成英语2倍

语言差异成AI鸿沟?牛津新研究汉语训练费用是英语2倍 缅甸掸语在15倍以上

牛津大学最近进行的一项研究表明,从诸多语言模型的鸿汉语计费方式看,英语的沟牛输入和输出比其他语言的输入和输出要便宜得多。例如,津新西班牙语的训练成本约为英语的1.5倍,简体中文的费用价格约为2倍以上,缅甸掸语在15倍以上。语言研究英语

语言差异成AI鸿沟?牛津新研究汉语训练费用是英语2倍 缅甸掸语在15倍以上

成本差异主要是因数据标记化所带来的。标记化就是将训练文本分解成更小的单元,这个更小的单元就是标记(Token)。这是一个人工智能(AI)公司将用户输入转换为计算成本的过程。

研究显示,使用英语以外的语言访问和训练模型的成本都更高。例如中文,无论是在语法上还是在字符数量上,都有更复杂的结构,从而导致更高的标记化(Token)率。

举例来看,基于OpenAI公司的GPT2模型,对于“国家不同,所得税的结构是不同的,税率和税率等级也有很大的差异”这句话的处理来看,在简体中文处理中运用到了66个Token,在英语处理中仅用到了24个Token,而在禅语处理中使用到了468个Token。

语言差异成AI鸿沟?牛津新研究汉语训练费用是英语2倍

就每次输出所需的费用而言,汉语的成本是英语的两倍。所以在AI相关的费用中,英语的成本效益是最高的。

当涉及到语言模型时,设计者的主要目标是实现低成本和高效功能之间的平衡。随着AI领域的不断发展,科技公司必须仔细考虑语言选择对成本和可访问性的影响。

这种成本差异促使中国、印度等国家纷纷开发自己的母语LLM项目。

语言差异成AI鸿沟?牛津新研究汉语训练费用是英语2倍

(责任编辑:时尚)

    推荐文章
    热点阅读