NVIDIA建立发布AI虚拟图像平台

 行业动态     |      2022-08-16 10:31:20    |      沥拓

  

  加利福尼亚州圣克拉拉——GTC2021年11月9日——NVIDIA今天生成交互式的今天发布AI虚拟图像的技术平台——NVIDIAOmniverseAvatar。

  OmniverseAvatar可以连接NVIDIA在语音AI,计算机视觉、自然语言理解、推荐引擎和模拟技术。平台上创建的虚拟图像是光线跟踪3D能够看到、说话、讨论各种主题、合理理解表达意图的交互式角色。

  OmniverseAvatar为AI助手的建立开辟了道路,可根据各行业的需要轻松定制。AI助手可以帮助处理餐厅订单、银行交易、个人预订、预订等数十亿次日常客户服务互动,带来更多商机,提高客户满意度。

  NVIDIA创始人兼CEO黄仁勋说:“智能虚拟助手的前景是光明的。OmniverseAvatar模拟和模拟我们的基本图像AI结合技术,创造出迄今为止最复杂的即时应用。合作机器人和虚拟助手的案例令人难以置信,影响深远。”

  OmniverseAvatar是用于3D虚拟世界模拟与工作流程协作平台——NVIDIAOmniverse™的一部分,Omniverse目前公测版客户已超过7万人。

  在NVIDIAGTC在主题演讲中,黄仁勋分享了使用OmniverseAvatar包括客户支持的多个示例ProjectTokkio,永久性在线车载智能服务NVIDIADRIVEConcierge以及用于视频会议ProjectMaxine。

  在第一个ProjectTokkio黄仁勋在,黄仁勋展示了NVIDIA同事们与黄仁勋卡通形象的虚拟形象互动——对话生物学和气候科学等话题。

  在第二个ProjectTokkio在演示过程中,黄仁勋重点介绍了餐厅自助服务亭客户服务的虚拟形象。在演示过程中,两位顾客正在购买素食汉堡包、薯条和饮料。虚拟图像看到了他们,与他们交谈并理解了他们。这些演示NVIDIAAI目前世界上最大的可定制语言模型和软件——Megatron530B驱动。

  在DRIVEConciergeAI在平台演示中,中央仪表盘屏幕上的数字助手帮助驾驶员选择最佳性能模式,以便按时到达目的地,然后根据驾驶员的要求将提示设置为降低到100公里以下的车程。

  此外,黄仁勋还展示了ProjectMaxine如何为虚拟合作和内容创建应用程序添加最先进的视频和音频功能。在演示中,一个说英语的人在一个嘈杂的咖啡馆里进行视频聊天,但其他人可以清楚地听到她说的话,没有背景噪音。当她说话时,她的话立即被转录并翻译成德语、法语和西班牙语,她的声音和语气与原来的句子完全一致。

  OmniverseAvatar主要部分

  OmniverseAvatar语音AI,通过以下技术实现计算机视觉、自然语言理解、推荐引擎、面部动画和图像元素:

  其语音识别是NVIDIARiva。这个软件开发工具包可以识别多语种语音。Riva接近真人的语音反馈也可以通过文本语音转换功能生成。

  它的自然语言理解是基于Megatron530B大型语言模型。这种模型可以识别、理解和生成人类语言。Megatron530B这是一个预训练模型。它可以在很少或没有训练的情况下完成句子,回答主题广泛的问题,总结长而复杂的故事,将其翻译成其他语言,并处理许多其他未经训练的场景。

  推荐引擎由NVIDIAMerlin™提供。这个框架使企业能够建立一个深入的学习推荐系统,可以处理大量的数据,从而提出更明智的建议。

  其感知功能来源于用于视频分析的计算机视觉框架——NVIDIAMetropolis。

  其虚拟图像动画由AI赋能的2D和3D面部动画和渲染技术——NVIDIAVideo2Face和Audio2Face™驱动。

  这些技术集成在一个应用程序中并使用NVIDIA实时处理的统一计算框架。这些技术被打包成可扩展的,可以通过定制微服务进行包装NVIDIAFleetCommand™在多个地方安全部署、管理和协调。