上海启嘟渡科技商贸有限公司
SEARCH

与我们合作

我们专注提供互联网一站式服务,助力企业品牌宣传多平台多途径导流量。
主营业务:网站建设、移动端微信小程序开发、营销推广、基础网络、品牌形象策划等

您也可通过下列途径与我们取得联系:

微 信: wxyunyingzhe

手 机: 15624122141

邮 箱:

Google的 Pathways(理想)与 PaLM(现实)

更新时间:2025-01-08 19:50:58

Google在2021年提出Pathways构想,旨在解决当前模型的主要问题,构建一个更接近人脑的框架。这一愿景在2022年通过Pathways系统得以实现,用于更高效地训练大型模型。然而,系统过于复杂,工程性较强,对此不做具体评价。

同年4月,Google发布PaLM,基于Pathways系统训练的超大规模语言模型。经过全面研究,PaLM展示了“大力出奇迹”的潜力,是基于经典结构的全注意力Transformer模型,与GPT-3相比在某些方面有所提升。模型基于广泛的数据集训练,包括网页、书籍、Wikipedia、新闻文章、源代码和社交媒体对话。在测试中,PaLM在few-shot实验和finetune实验中展现出竞争力,但与最好的encoder-decoder模型相比仍存在差距。在Big-Bench测试中,PaLM取得显著成果。

总结而言,PaLM作为Pathways愿景的第一步,成功扩展了大模型的能力边界,特别是针对few-shot场景。它验证了Pathways训练系统的有效性,并为下一代模型架构的研发积累了宝贵经验。尽管PaLM未带来惊喜,但它对传统模型架构和训练方法的改进具有重要意义。

在探索大型模型的过程中,Google还尝试过基于MoE(Mixture-of-experts)的大型稀疏模型,如GShard、Switch-Transformer和GLaM。这些模型通过MoE实现了在大型模型中包含多个子网络,针对不同token自动选择最佳子网络进行推理的能力。尽管PaLM并未完全实现Jeff Dean所提出的Pathways愿景,但MoE模型可能更接近这一目标。有猜测指出,一个超大的类MoE模型可能正在Pathways系统上训练。

多重随机标签

猜你喜欢文章

QQ客服 电话咨询