用童话训练AI模型 微软寻找了探索生成模型参数的新切入点
大型语言模型 GPT-3.5 的设计目的是为了驱动 ChatGPT 接口,该模型的参数接近2000亿,它是在由数千亿个单词组成的数据集上训练的(OpenAI 尚未发布 GPT-4 的相应数据)。训练这样的大型模型通常需要至少 1000 个称为 GPU 的专用处理器,并行运行数周。只有少数公司能够筹集到如此的资源,更不用说训练和比较不同的模型了。 这两位研究人员的研究表明,比当今最先进的系统小数千倍的语言模型在接受这种基于童话故事的训练后,能迅速学会讲述连贯且符合语法的故事。他们的研究成果指明了新的研究方向,可能有助于训练更大的模型并理解它们的行为。 为了生成连贯的童话故事,语言模型需要学习世界性的事实,跟踪人物和事件,并遵守语法规则——这些都是大型模型所面临的挑战的简单版本。但是,在海量数据集上训练的大型模型在学习真正重要的规则的同时,也学习了无数无关紧要的细节。Eldan 希望,阅读儿童故事的简洁性和教师有限的词汇量能让带有小型模型的儿童英语学习变得更容易管理——使它们更容易受到训练,也更容易理解。 不过,在语言模型的世界里,「小」是相对的:比用于训练 GPT-3.5 的数据集小一千倍的数据集仍然需要包含数百万个故事。 解决的办法是在 prompt 中加入一点随机性。首先,Eldan 使用 GPT-4 生成了一份包含 1500 个 4 岁儿童可能知道的名词、动词和形容词的列表,这个列表非常简短,他可以很容易地自行检查。然后,他编写了一个简单的计算机程序,反复提示 GPT-3.5 或 GPT-4 生成一个适合该年龄段的故事,其中包括从列表中随机抽取的三个单词,还包括一个的随机选择的细节类型,如大团圆结局或情节转折。令人欣慰的是,生成的故事并不会充满恐怖情节。 Eldan 现在有了一套按需提供训练数据的程序,但他不知道训练一个功能模型需要多少故事,也不知道这个模型需要多大。这时,他与微软和卡内基梅隆大学的机器学习研究员李远志合作,利用小型模型可以快速训练的优势,尝试了不同的可能性。研究人员发现,如果使用一个大型的数据集,那么在训练过程中会产生更多的错误,因为它们需要花费更多的时间。 (编辑:银川站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |