AI导读:

字节跳动数字人团队推出全新多模态数字人方案OmniHuman,能够从单张图像生成逼真全身动态视频,标志着AI视频生成技术的一次重大突破。同时,随着AI技术不断进步,数字人产业将迎来更为广阔的发展空间,预计到2026年中国虚拟数字人市场规模将达102.4亿元。

在AI技术日新月异的今天,初创公司正引领着一场AI革命,而与此同时,头部互联网企业也在AI赛道上加速前行,展现出了不凡的实力与决心。

2025年2月6日,字节跳动数字人团队正式推出了其最新的多模态数字人方案——OmniHuman。这一方案能够基于任意尺寸和人物占比的单张图片,结合输入的音频,生成生动且自然度极高的视频。这一创新不仅标志着AI视频生成技术的一次重大突破,也预示着数字人领域将迎来更为广阔的发展空间。

OmniHuman:字节跳动的AI数字人新里程碑

字节跳动公司凭借其强大的研发实力,成功开发出了OmniHuman-1这一人工智能模型。该模型能够从单张图像出发,生成逼真且全身动态的视频,效果之惊艳,令人叹为观止。无论是配合音频还是视频,OmniHuman都能生成非常自然的会说话、唱歌的人类动作视频,且在生成过程中保持了极高的真实感,能够精确捕捉到人类的面部表情、身体动作、手势变化以及物体交互等细节。

OmniHuman支持多种不同类型的输入,包括单一的人物图片、音频和视频等信号,能够生成涵盖从面部表情到全身动作的逼真真人视频动画。无论是说话、唱歌还是跳舞,OmniHuman都能轻松应对,超越了以往仅能动画面部或上半身的AI模型。

据了解,OmniHuman采用了基于DiT架构的多模态运动条件混合训练策略,有效解决了高质量数据稀缺的问题。通过结合文本、音频和人体动作等多种输入,并引入“全条件”训练这一创新方法,OmniHuman得以从更大、更丰富的数据集中学习,从而实现了视频生成质量的显著提升。

经过与多个已存在的模型进行定量对比,OmniHuman算法在多项评估指标上均展现出了显著优势。这得益于其超过18700小时的人类视频数据训练,以及多种条件信号的引入。这些努力不仅提升了视频生成的质量,还有效减少了数据的浪费。

业内人士指出,OmniHuman的成功推出,标志着人类在动画生成领域取得了重大进展。这一发展出现在AI视频生成技术竞争日益激烈的背景下,谷歌、Meta和微软等公司也在积极追逐类似技术。然而,OmniHuman凭借其创新的技术和卓越的性能,无疑在这一领域占据了领先地位。

数字人产业:未来可期,市场潜力巨大

随着全球数字人进入高产时代,相关产业规模不断扩大,互联网巨头们纷纷布局这一领域。目前,除百度、腾讯、阿里巴巴等互联网公司外,华为云、京东云、字节跳动、科大讯飞、商汤科技、小冰公司等厂商也都已参与到虚拟数字人的生产中。

据天眼查数据显示,截至2024年9月底,中国与数字人相关的企业数量已达114.4万家,仅2024年前五个月就新增注册企业17.4万余家。这一数据充分显示了数字人产业的市场潜力与活力。

浙商证券认为,数字人有望成为AI大模型的服务入口,在帮助企业实现降本增效的同时,实现toB服务在toC侧的变现闭环。而IDC最新发布的报告也显示,中国虚拟数字人市场规模呈现高速增长趋势,预计到2026年将达102.4亿元。

智研咨询则指出,随着AI技术的不断进步,智能驱动型虚拟数字人将成为市场主流。虚拟数字人的拟人化程度为其核心特征及竞争力所在。目前,智能驱动型虚拟数字人受限于技术、设备因素,拟人逼真程度尚不及真人驱动型。然而,未来随着自然语言处理、深度学习算法等AI技术的不断发展与突破,智能驱动型虚拟数字人的感知能力、表达能力与认知能力都将得到大幅提升,且成本也将进一步下滑。

在性能与成本优势不断显现的背景下,智能驱动型虚拟数字人将逐步取代真人驱动型虚拟数字人,成为市场主流,并广泛应用于各个领域。尤其是AIGC技术的兴起,将为智能驱动型数字人的个性化定制及智能化交互能力注入新的活力,推动其再上新台阶。

(来源:中国基金报,内容有所调整和优化,以符合SEO要求和文章摘要的撰写)