九游会J9多模态大模子可解决文本、图像、视频等多种数据-九游娱乐(China)官方网站

发布日期：2025-08-18 07:17 点击次数：124

2024年4月，清华大学东说念主工智能权略院副院长、生数科技创举东说念主兼首席科学家朱军初度发布中国版Sora——视频大模子Vidu。一年后，2025年3月29日，中关村论坛上，Vidu高可控 AI 视频大模子 Q1认真推出。

这次升级的关节在于“高可控”，采访中，朱军诠释称：Q代表quality，代表模子的高可控，具体包括多主体细节可控、音效同步可控、画质增强。实质视频生成进程中，位置可控一直是辣手贫苦，以往模子频繁无法精确按照辅导生成。如今，Vidu Q1 借助融入参考图的视觉辅导，在语义辅导的基础上，已毕了对场景中扮装位置属性的更精确截止。

可控主体数目的加多亦然一项工夫险峻。以往，AI 视频生成在濒临较多主体时，精确生成的难度极大。Vidu Q1 加多了可控主体数目，并在多主体一致性以及妥贴物理规则等方面已毕险峻。另外，Vidu Q1 的音效同步可控功能不错基于语义辅导，在生成视频画面的同期生成精确可控的音效，截止每段音效的哀吊与出现的时刻点。

从Vidu1.0到Vidu Q1，一年时刻内，诳言语模子赛说念渐渐插足洗牌期，而视频大模子赛说念仍处于昌盛成永远，快手可灵、字节即梦、MiniMax海螺AI不休迭代，OpenAI Sora认真上线，HeyGen、Pika、爱诗科技等完成融资。而总共这个词东说念主工智能领域跟随工夫的升级，发展旅途渐渐从单一模态跨向多模态、跨模态，东说念主机交互与产业应用的规模渐渐转换。

相较视频大模子专注于视频数据的特征，多模态大模子可解决文本、图像、视频等多种数据，通过数据对皆、和会与谐和秀气工夫，实行视觉问答等复杂任务。关于多模态赛说念的发展，朱军对第一财经记者示意，Vidu基座一运行即是多模态大模子，生数的定位亦然多模态，视频仅仅进展景色之一，这次更新的音频功能与机器东说念主可控数据操作均代表着不同的模态，对公司来讲，底层架构基本雷同，不必过多修改即可已毕多种形状。

现在生数Vidu的交易化标的主要包括面向C端的SaaS与面向B端的MaaS形状，朱军以为，2025年是视频大模子交易化快速发展的一年，消耗者对视频的需求卓绝广阔，这亦然视频大模子与诳言语模子不同之处。朱军判断，现在头部视频模子平台各有特点与交易化旅途，暂时莫得走到诳言语模子那么“卷”的情状。

谈及DeepSeek效应是否会在视频赛说念出当前，朱军对记者示意，视频大模子大致率不会出现近似DeepSeek这种完结越过的模子，因为行业仍是将DeepSeek主打的完结上风进行推行了，厂商更期待的是视频模子愈加可控、愈加好用，步入视频领域的“ChatGPT时刻”。

举报第一财经告白互助，请点击这里此内容为第一财经原创，著述权归第一财经总共。未经第一财经籍面授权，不得以任何神气加以使用，包括转载、摘编、复制或建立镜像。第一财经保留根究侵权者法律连累的权益。如需获取授权请探求第一财经版权部：banquan@yicai.com 文章作家