谷歌新一代语言模型PaLM 2训练数据激增，实现更强大的语言理解与生成

2023年05月18日 09:01

听声音

谷歌的新一代通用大型语言模型PaLM 2在训练中使用的文本数据几乎是其前身的五倍。最新消息显示，PaLM 2在训练过程中接受了3.6万亿个token的训练数据，使其具备了执行更高级编码、数学和创意写作任务的能力。这一消息是谷歌在最近的I/O大会上宣布的。

据内部文件显示，谷歌之前版本的PaLM于2022年发布，其训练数据量为7800亿个token。通过增加训练数据的规模，PaLM 2在语言理解和生成方面迈出了更大的步伐。这将为谷歌的语言处理技术带来更广泛的应用领域和更出色的性能。

相关阅读