全球「AI学术顶会」精华汇聚地
您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
业界 正文
发私信给小七
发送

0

生数科技发布 Vidu S1,推动视频生成迈向“实时交互”新时代

本文作者: 小七   2026-07-03 20:48
导语:7月3日,生数科技正式发布面向实时交互场景的新一代模型--Vidu S1实时交互模型。

7月3日,在2026全球数字经济大会人工智能融合应用发展论坛,生数科技创始人朱军发表题为《通用世界模型,推动数字世界与物理世界统一的新范式》的主题演讲,并正式发布面向实时交互场景的新一代模型——Vidu S1 实时交互模型。大会期间,北京软件和信息服务业协会(BSIA)正式发布《2025年北京市数字经济标杆企业评价报告》,生数科技凭借在技术创新与产业应用方面的突出表现,成功入选“新模式新应用标杆企业”。

生数科技发布 Vidu S1,推动视频生成迈向“实时交互”新时代

Vidu S1 实时交互模型,提供实时可交互的新一代视频生成能力,推动AI视频从“生成一段内容”,迈向“持续进行互动”。

模型支持实时视频通话和语音控制视频走向,用户不仅能通过语音控制数字人的行为,还能实现无限时长连续互动。同时,Vidu S1支持540P (960x540)高清分辨率、25FPS帧率(最高支持42FPS),可基于真人、动漫、萌宠等任意初始形象及个性化音色,快速创建专属交互角色,为用户带来更自然、流畅、更具沉浸感的实时互动体验。

语音指令实时跟随,从离线生成到实时回应,让数字人真正“听懂”用户

传统视频大模型通常采用“输入提示词—等待生成—播放结果”的离线模式。视频生成后,内容和走向基本固定,如需调整动作或剧情,只能重新输入提示词生成,人与视频仍是离线的“生成与观看”关系。

Vidu S1 打破了这一边界。用户可以在视频通话过程中持续输入语音,模型则结合语音内容、对话上下文和当前画面状态,实时生成角色的后续内容和动作。

与此同时,Vidu S1也让数字人从“语音驱动口型”,进一步走向“语音控制行为”。

不同于传统数字人依赖“音频驱动口型+预设动作库”,Vidu S1 采用实时视频生成技术,将语音从驱动嘴型的音频信号,升级为控制角色视觉行为的实时指令。模型不仅能够生成与语音同步的口型,还能理解语义、意图与情绪,实时生成相匹配的表情、眼神、手势、身体姿态及全身动作,让数字人从“会说话的虚拟形象”,进化为能够理解用户、即时回应并持续互动的生成式角色。


生数科技发布 Vidu S1,推动视频生成迈向“实时交互”新时代

无限时长实时生成,让视频在互动中持续演化

传统视频生成模型通常一次生成一段 3s-30s 的固定时长的视频。视频生成过程中,用户难以在过程中加入新的指令,实时改变后续画面。

Vidu S1 采用自回归扩散模型 (AR + Diffusion) 路线,不再一次性生成完整视频,而是基于已经生成的历史画面,结合当前语音指令和对话上下文,持续预测并生成后续内容。当用户发出新的语音指令时,模型可以实时理解并调整角色的表情、动作及后续视频走向,使视频从预先确定的固定内容,转变为一个持续生成、实时响应、动态演化的交互过程。

生数科技发布 Vidu S1,推动视频生成迈向“实时交互”新时代

除了交互式实时生成,Vidu S1 还首次实现了无限时长的实时视频生成。即使连续生成数小时,画面仍能保持稳定,不会漂移或崩坏。

实现长时间连续互动,仅仅“持续生成”还不够。模型还需要在长时间运行中同时保持角色身份稳定、动作自然连贯,并能够持续接收用户指令、实时做出响应。Vidu S1既能在长时间生成中保持角色形象稳定、动作自然连贯,也能持续接收用户语音指令并实时作出响应,率先实现无限时长的生成式视频互动。

自定义角色,无需建模与训练,一张图片即可创建实时交互角色

传统数字人的创建通常需要上传多张图片或视频素材,并经过建模、角色绑定、口型适配和单独训练,制作周期较长。

Vidu S1采用纯生成式技术路线,无需针对每个角色进行离线建模和训练。用户只需上传一张初始图片,模型即可理解角色的身份、外观和视觉风格,并实时生成角色的口型、表情、动作和身体姿态。

论是真人、动漫角色还是萌宠形象,都可以快速转化为可实时互动的生成式角色。同时,Vidu S1支持自定义音色,实现视觉形象与声音身份的统一。

数字角色的创建方式由“上传素材后等待训练”,转变为“上传图片后直接互动”,大幅降低个性化实时角色的创建门槛。

生数科技发布 Vidu S1,推动视频生成迈向“实时交互”新时代

540P·25FPS 实时交互,打造视频通话级体验
实时交互不仅要求模型是流式生成,也要求在实时生成的前提下,生成分辨率和帧率。

Vidu S1面向实时交互场景,对模型加速、推理引擎和集群部署策略进行协同优化,实现540P (960x540)高清分辨率、25FPS(最高支持42 FPS)流畅帧率的实时视频生成。


生数科技发布 Vidu S1,推动视频生成迈向“实时交互”新时代

在模型侧,Vidu S1 基于生数科技的 TurboDiffusion [1] 推理加速框架通过少步生成、低比特注意力SageAttention [2]、稀疏注意力 SLA [3] 和 SpargeAttention [4] 等推理优化技术,大幅降低单帧生成所需的计算成本,在消费级显卡上就可以实现 540P 分辨率、25FPS(最高支持42 FPS)实时生成。

在系统侧,Vidu S1 基于生数科技的 TurboServe  [5] 推理部署引擎,实现高效的推理请求调度。系统持续记录用户输入、角色状态和历史画面,并根据交互状态动态调度计算资源。

通过模型推理与流式服务的协同优化,Vidu S1 实现了从“把视频生成得更快”,到“让视频持续在线、稳定输出、实时响应”的关键跨越。

540P 与 25FPS(最高支持 42 FPS) 不只是画质和帧率指标,更标志着实时视频生成开始具备进入视频通话、互动直播、实时陪伴、互动游戏及XR等场景的技术基础。

随着视频大模型持续发展,行业竞争正从画质、时长、速度等单点能力比拼,走向实时性、可控性与交互性的系统竞争。

Vidu S1 的发布,让视频不再只是预先生成、离线观看的固定内容,而成为能够理解指令、实时响应并持续演化的交互载体。

未来,Vidu S1 可广泛应用于AI情感陪伴、AI虚拟偶像、互动直播、游戏NPC、品牌数字人、智能客服、在线教育及XR等场景,推动数字角色从一次性内容资产,升级为长期在线、持续互动的智能入口。

从生成一段视频,到创造一个能够持续互动的角色;从离线内容输出,到实时双向交流,Vidu S1进一步拓展了视频大模型的能力边界,推动AI视频生成迈入实时交互的新时代。

Vidu S1 已开启内测,用户可自定义初始图像并进行实时互动体验:

线上体验地址:https://www.vidu.cn/vidu-stream

API体验地址:https://platform.vidu.cn/live/landing

APP体验方式:在手机应用商店搜索「Vidu AI Pro」下载最新版本,进入APP内点击「Vidu S1」即可体验


[1] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times.

[2] Sageattention: Accurate 8-bit attention for plug-and-play inference acceleration.

[3] Sla: Beyond sparsity in diffusion transformers via fine-tunable sparse-linear attention.

[4] Spargeattention: Accurate and training-free sparse attention accelerating any model inference.

[5] TurboServe: Serving Streaming Video Generation Efficiently and Economically.

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说