生数科技发布 Vidu S1，推动视频生成迈向“实时交互”新时代

本文作者：小七

2026-07-03 20:48

导语：7月3日，生数科技正式发布面向实时交互场景的新一代模型--Vidu S1实时交互模型。

7月3日，在2026全球数字经济大会人工智能融合应用发展论坛，生数科技创始人朱军发表题为《通用世界模型，推动数字世界与物理世界统一的新范式》的主题演讲，并正式发布面向实时交互场景的新一代模型——Vidu S1 实时交互模型。大会期间，北京软件和信息服务业协会（BSIA）正式发布《2025年北京市数字经济标杆企业评价报告》，生数科技凭借在技术创新与产业应用方面的突出表现，成功入选“新模式新应用标杆企业”。

Vidu S1 实时交互模型，提供实时可交互的新一代视频生成能力，推动AI视频从“生成一段内容”，迈向“持续进行互动”。

模型支持实时视频通话和语音控制视频走向，用户不仅能通过语音控制数字人的行为，还能实现无限时长连续互动。同时，Vidu S1支持540P (960x540)高清分辨率、25FPS帧率（最高支持42FPS），可基于真人、动漫、萌宠等任意初始形象及个性化音色，快速创建专属交互角色，为用户带来更自然、流畅、更具沉浸感的实时互动体验。

语音指令实时跟随，从离线生成到实时回应，让数字人真正“听懂”用户

传统视频大模型通常采用“输入提示词—等待生成—播放结果”的离线模式。视频生成后，内容和走向基本固定，如需调整动作或剧情，只能重新输入提示词生成，人与视频仍是离线的“生成与观看”关系。

Vidu S1 打破了这一边界。用户可以在视频通话过程中持续输入语音，模型则结合语音内容、对话上下文和当前画面状态，实时生成角色的后续内容和动作。

与此同时，Vidu S1也让数字人从“语音驱动口型”，进一步走向“语音控制行为”。

不同于传统数字人依赖“音频驱动口型＋预设动作库”，Vidu S1 采用实时视频生成技术，将语音从驱动嘴型的音频信号，升级为控制角色视觉行为的实时指令。模型不仅能够生成与语音同步的口型，还能理解语义、意图与情绪，实时生成相匹配的表情、眼神、手势、身体姿态及全身动作，让数字人从“会说话的虚拟形象”，进化为能够理解用户、即时回应并持续互动的生成式角色。

生数科技发布 Vidu S1，推动视频生成迈向“实时交互”新时代

无限时长实时生成，让视频在互动中持续演化

传统视频生成模型通常一次生成一段 3s-30s 的固定时长的视频。视频生成过程中，用户难以在过程中加入新的指令，实时改变后续画面。

Vidu S1 采用自回归扩散模型 (AR + Diffusion) 路线，不再一次性生成完整视频，而是基于已经生成的历史画面，结合当前语音指令和对话上下文，持续预测并生成后续内容。当用户发出新的语音指令时，模型可以实时理解并调整角色的表情、动作及后续视频走向，使视频从预先确定的固定内容，转变为一个持续生成、实时响应、动态演化的交互过程。

生数科技发布 Vidu S1，推动视频生成迈向“实时交互”新时代

除了交互式实时生成，Vidu S1 还首次实现了无限时长的实时视频生成。即使连续生成数小时，画面仍能保持稳定，不会漂移或崩坏。

实现长时间连续互动，仅仅“持续生成”还不够。模型还需要在长时间运行中同时保持角色身份稳定、动作自然连贯，并能够持续接收用户指令、实时做出响应。Vidu S1既能在长时间生成中保持角色形象稳定、动作自然连贯，也能持续接收用户语音指令并实时作出响应，率先实现无限时长的生成式视频互动。

自定义角色，无需建模与训练，一张图片即可创建实时交互角色

传统数字人的创建通常需要上传多张图片或视频素材，并经过建模、角色绑定、口型适配和单独训练，制作周期较长。

Vidu S1采用纯生成式技术路线，无需针对每个角色进行离线建模和训练。用户只需上传一张初始图片，模型即可理解角色的身份、外观和视觉风格，并实时生成角色的口型、表情、动作和身体姿态。

论是真人、动漫角色还是萌宠形象，都可以快速转化为可实时互动的生成式角色。同时，Vidu S1支持自定义音色，实现视觉形象与声音身份的统一。

数字角色的创建方式由“上传素材后等待训练”，转变为“上传图片后直接互动”，大幅降低个性化实时角色的创建门槛。

生数科技发布 Vidu S1，推动视频生成迈向“实时交互”新时代

540P·25FPS 实时交互，打造视频通话级体验
实时交互不仅要求模型是流式生成，也要求在实时生成的前提下，生成分辨率和帧率。

Vidu S1面向实时交互场景，对模型加速、推理引擎和集群部署策略进行协同优化，实现540P (960x540)高清分辨率、25FPS（最高支持42 FPS）流畅帧率的实时视频生成。

生数科技发布 Vidu S1，推动视频生成迈向“实时交互”新时代

在模型侧，Vidu S1 基于生数科技的 TurboDiffusion [1] 推理加速框架通过少步生成、低比特注意力SageAttention [2]、稀疏注意力 SLA [3] 和 SpargeAttention [4] 等推理优化技术，大幅降低单帧生成所需的计算成本，在消费级显卡上就可以实现 540P 分辨率、25FPS（最高支持42 FPS）实时生成。

在系统侧，Vidu S1 基于生数科技的 TurboServe [5] 推理部署引擎，实现高效的推理请求调度。系统持续记录用户输入、角色状态和历史画面，并根据交互状态动态调度计算资源。

通过模型推理与流式服务的协同优化，Vidu S1 实现了从“把视频生成得更快”，到“让视频持续在线、稳定输出、实时响应”的关键跨越。

540P 与 25FPS（最高支持 42 FPS）不只是画质和帧率指标，更标志着实时视频生成开始具备进入视频通话、互动直播、实时陪伴、互动游戏及XR等场景的技术基础。

随着视频大模型持续发展，行业竞争正从画质、时长、速度等单点能力比拼，走向实时性、可控性与交互性的系统竞争。

Vidu S1 的发布，让视频不再只是预先生成、离线观看的固定内容，而成为能够理解指令、实时响应并持续演化的交互载体。

未来，Vidu S1 可广泛应用于AI情感陪伴、AI虚拟偶像、互动直播、游戏NPC、品牌数字人、智能客服、在线教育及XR等场景，推动数字角色从一次性内容资产，升级为长期在线、持续互动的智能入口。

从生成一段视频，到创造一个能够持续互动的角色；从离线内容输出，到实时双向交流，Vidu S1进一步拓展了视频大模型的能力边界，推动AI视频生成迈入实时交互的新时代。

Vidu S1 已开启内测，用户可自定义初始图像并进行实时互动体验：

线上体验地址：https://www.vidu.cn/vidu-stream

API体验地址：https://platform.vidu.cn/live/landing

APP体验方式：在手机应用商店搜索「Vidu AI Pro」下载最新版本，进入APP内点击「Vidu S1」即可体验

[1] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times.

[2] Sageattention: Accurate 8-bit attention for plug-and-play inference acceleration.

[3] Sla: Beyond sparsity in diffusion transformers via fine-tunable sparse-linear attention.

[4] Spargeattention: Accurate and training-free sparse attention accelerating any model inference.

[5] TurboServe: Serving Streaming Video Generation Efficiently and Economically.

0人收藏

小七

编辑

发私信

当月热门文章