视频初创公司利用“深度造假”技术参与视频配音
AI“深度造假”在金融诈骗领域让人深恶痛绝,但如果用在突破语言障碍上,又会带来怎样的感受呢?
最新消息显示,初创公司Panjaya正在将生成式AI应用到超现实领域,基于生成式AI的视频配音工具,生成模仿原始说话者声音的全新语言,并对视频中的人物唇形和动作进行同步调整。这款AI视频配音工具名为BodyTalk。它通过AI将视频翻译成29种语言。未来,公司计划提供API并提供近实时处理的服务。目前,BodyTalk的主要客户包括JFrog和TED等B2B客户。
AI机器人市场正吸引头部公司的极大重视,这意味着一场新的产业机会正在加速到来。
IsaacLab是一个开源的机器人学习框架,基于NvidiaOmniverse平台,支持大规模机器人策略训练,适用于人形、四足等多种机器人。ProjectGR00T则提供六项新的流程,为人形机器人开发提供加速支持。Cosmos分词器可以将视频高效压缩,提高视觉重建速度达12倍,而NeMoCurator优化了视频数据处理,具备线性扩展能力,可处理超过100PB的数据,提升模型精度。
目前,IsaacLab1.2版和Cosmos分词器已在GitHub和HuggingFace上线,NeMoCurator的新版将在月底发布。
MIT推出模仿大语言模型的新方法来训练机器人
“机器人到底要变得多聪明才算可以?”在全球头部公司的重金研发支持之外,领先的研究机构也在寻求更多的技术突破。
MIT最近展示了一种新的机器人训练模型,模仿大语言模型的海量数据方法。团队开发的“异构预训练变换器”(HPT)利用多种环境和传感器信息,通过更大的数据量提高机器人的适应能力。该研究由丰田研究所资助,旨在开发一种“通用机器人大脑”,无需额外训练即可应用。研究处于早期阶段,但目标是让机器人像大语言模型一样实现能力突破。
AI+商业
ArtificialIntelligenceBussiness
苹果收购图片编辑应用Pixelmator
从苹果目前的动作来看,其商业变革与创新尚未打破其原有的生态逻辑,只是不断强化了AI在苹果生态中的应用。