谷歌新一代语言模型PaLM 2训练数据激增,实现更强大的语言理解与生成
听声音
谷歌的新一代通用大型语言模型PaLM 2在训练中使用的文本数据几乎是其前身的五倍。最新消息显示,PaLM 2在训练过程中接受了3.6万亿个token的训练数据,使其具备了执行更高级编码、数学和创意写作任务的能力。这一消息是谷歌在最近的I/O大会上宣布的。
据内部文件显示,谷歌之前版本的PaLM于2022年发布,其训练数据量为7800亿个token。通过增加训练数据的规模,PaLM 2在语言理解和生成方面迈出了更大的步伐。这将为谷歌的语言处理技术带来更广泛的应用领域和更出色的性能。