最新文章

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

指代分割 (Referring Image Segmentation，RIS) 是一项极具挑战性的多模态任务，要求算法能够同时理解精细的人类语言和视觉图像信息，并将图像中句子所指代的物体进行像素级别的分割。

机器之心 · 2024-04-26 14:28:00

“突破科技启迪未来”：奥迪携纯电动车型阵容亮相2024北京国际车展

奥迪携全新一代纯电动车型Q6L e-tron重磅亮相2024北京国际车展

机器之心 · 2024-04-26 09:43:00

VASA-1：实时音频驱动的数字人说话面部视频生成技术

本文介绍了 VASA-1，这是一个由 Microsoft Research Asia 开发的框架，用于生成逼真的、音频驱动的说话（面部）视频。VASA-1 能够根据单一静态图像和语音音频片段生成具有视觉情感技能（Visual Affective Skills, VAS）的说话视频。该模型不仅能够产生与音频精确同步的唇部运动，还能捕捉到广泛的面部微妙表情和自然头部运动，从而增强真实感和生动感。从方法与效果上来讲，VASA-1都具有较大的突破，为虚拟人交互、虚拟人面部视频生成、AI译片等都提供了更为坚实的基础。

CSDN · 2024-04-26 08:00:00

商汤绝影系列原生态大模型亮相2024北京车展：智能汽车加速驶入AGI时代

商汤绝影的真·端到端自动驾驶解决方案UniAD刚刚上车首秀了。

机器之心 · 2024-04-25 19:08:00

最新文章

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

“突破科技 启迪未来”：奥迪携纯电动车型阵容亮相2024北京国际车展

VASA-1：实时音频驱动的数字人说话面部视频生成技术

商汤绝影系列原生态大模型亮相2024北京车展：智能汽车加速驶入AGI时代

“突破科技启迪未来”：奥迪携纯电动车型阵容亮相2024北京国际车展