微软发布史上最大AI模型:170亿参数,横扫各种语言建模基准

后台-系统设置-扩展变量-手机广告位-内容正文顶部

微软AI&Research分享了有史以来,最大的基于Transformer架构生成的模型Turing NLG并开源了一个名为Deep Speed深度学习库,以简化对大型模型的分布式培训。基于Transformer架构,意味着该模型可以生成单词来完成开放式文本任务。

 

 

2019年8月,英伟达曾发布世界上最大的基于Transformer的语言模型,当时该模型使用了83亿个参数,比BERT大24倍,比Open AI的GPT-2大5倍。而此次微软所发布T-NLG模型的参数为170亿个,是英伟达Megatron的两倍,是Open AI GPT-2的十倍。

 

微软表示,T-NLG在各种语言建模基准上均优于最新技术,并在应用于许多实际任务(文本总结和解析)上表现出色。

 

微软AI科学家Corby Rosset在博客中写道:“除了通过汇总文档和电子邮件来节省用户时间之外,T-NLG还可以通过为作者提供写作帮助,并回答读者可能对文档提出的问题,由此来增强MicrosoftOffice套件的使用体验。” 

 

微软希望在任何情况下,AI都能够像人类一样直接,准确,流畅地做出响应:以前,问题解析和内容摘要依赖于从文档中提取现有内容,这些内容可以作为备用答案或摘要,但它们通常看起来不自然或不连贯。使用T-NLG这样的自然语言生成模型,可以自然地总结或回答有关个人文档或电子邮件的问题。

 

此外,微软还开源了一个名为Deep Speed的深度学习库。该学习库已针对开发人员进行了优化,以提供低延迟、高吞吐量的推理。Deep Speed包含零冗余优化器(ZeRO),用于大规模训练具有1亿个或更多参数的模型,微软曾用它训练过T-NLG。

 

微软表示,Deep Speed和ZeRO使得他们能够降低模型并行度(从16降低到4),将每个节点的批处理大小增加四倍,并将训练时间减少了三分之二;DeepSpeed使用更少的GPU可以使大型模型的训练效率更高,开发人员和机器学习从业人员都可以使用DeepSpeed和ZeRO来训练自己的模型。

未经允许不得转载:RPA中国 | RPA全球生态 | 数字化劳动力 | RPA新闻 | 推动中国RPA生态发展 | 流 > 微软发布史上最大AI模型:170亿参数,横扫各种语言建模基准

后台-系统设置-扩展变量-手机广告位-内容正文底部