🏆 Video Arena 双榜第一 · 2026-04-26 上线NEW · Happy Horse 1.0 by Alibaba · 2026-04

Happy Horse 1.0 AI 视频生成器,自带唇同步

阿里巴巴最新 AI 视频生成模型,Artificial Analysis Video Arena 双榜第一(Text-to-Video Elo 1333,Image-to-Video Elo 1392)— 全部超过 Sora 2 / Veo 3.1 / Kling。

音视频一次生成,1080p 高清输出,7 种语言唇同步:英语 / 普通话 / 粤语 / 日语 / 韩语 / 德语 / 法语。

3-15 秒可调
原生音频 + 唇同步
5 种宽高比
模式
模型
Happy Horse 1.060
时长
宽高比
分辨率

音频

Happy Horse 1.0 一次生成音频 + 视频 + 唇同步 — 无需独立音频开关。输出始终带原生音频。

提示词

视频预览

输入提示词点击生成,创建你的 Happy Horse 视频

Happy Horse 1.0 模型

阿里巴巴 #1 AI 视频生成模型,音视频联合生成 + 7 种语言唇同步。

#1 VIDEO ARENA

Happy Horse 1.0

音视频联合生成,多语言唇同步

Video Arena #1
  • 音视频联合输出(单次生成)
  • 3-15 秒可调时长
  • 7 种语言唇同步
  • 支持 1080p 高清
起价 36 积分 / 3 秒 @ 720p

核心能力

Happy Horse 1.0 在 Artificial Analysis Video Arena 文生视频和图生视频双榜均排名第一。

原生音频 + 唇同步

音频和视频通过单次扩散过程联合生成,无需后期合成。7 种语言的角色对白自动唇形对齐。

文生视频

把文字描述转换成 3-15 秒的电影感视频,自带同步音频和角色对白唇形对齐。

图生视频

把静态图片用自然动作和同步音频动起来。上传一张参考图,描述你要的动作和对白。

5 种宽高比

支持 16:9(YouTube)、9:16(TikTok / Reels)、1:1(Instagram)、4:3(传统)、3:4(竖屏),生成时一键选择。

能力深度解析

Happy Horse 1.0 如何用单次正向扩散完成音视频联合生成。

文生视频

文生视频生成

仅凭文字就能生成有角色对白、环境音、表现力动作的场景。指定对白语言,Happy Horse 自动对齐唇形,共支持 7 种语言。

提示词示例

东京一名咖啡师用日语欢迎客人("いらっしゃいませ"),温暖咖啡馆氛围,轻爵士背景音,镜头缓慢推近。

文生视频生成
图生视频

图生视频动画

把一张静态照片用自然动作和同步音频做活。上传任意参考图,写明要做的动作和对白。

提示词示例

街头小贩面带笑容用英语说 "Hello, my friend!",霓虹灯闪烁,微雨光泽。

图生视频动画
音频 + 唇同步

音视频联合生成

音频是联合生成,不是后期叠加。唇形对齐覆盖 7 种语言:英语 / 普通话 / 粤语 / 日语 / 韩语 / 德语 / 法语。

提示词示例

法国厨师用法语讲一道菜的做法("On commence par le beurre…"),煎锅滋滋声,刀切菜板声,手持镜头。

音视频联合生成
宽高比

五种宽高比

生成时一键选择宽高比,适配主流社交平台 — 无需裁剪、无需加黑边。

提示词示例

9:16 竖屏短片 — 一名滑板手成功完成一个 kickflip,街头环境音,人群欢呼。

五种宽高比

积分定价

720p 每秒 12 积分 · 1080p 每秒 24 积分(Plykit Pro 套餐每积分约 ¥0.42)。

Plykit Pro 每积分 ≈ ¥0.42。Happy Horse 永远内置音频 — 音频和视频一次生成,无独立开关。
时长720p1080p
3s40 credits80 credits
5s60 credits120 credits
8s96 credits192 credits
10s120 credits240 credits
12s144 credits288 credits
15s180 credits360 credits

如何使用 Happy Horse 1.0

三步生成你的第一个 Happy Horse 视频。

第 1 步

选择模式

文生视频从零开始,图生视频用一张参考图。两种模式都需要写动作 + 对白(角色说话时请指定语言以启用唇同步)。

第 2 步

配置时长 + 尺寸

选择 3-15 秒,720p 或 1080p,以及目标平台对应的宽高比。建议先用 720p 5 秒做预览,确认效果后再上 1080p。

第 3 步

生成并下载

点击「生成视频」,1080p 单次约 38 秒返回 — 拿到自带原生同步音频和唇形对齐的视频。

案例集

Happy Horse 1.0 生成的视频案例。

东京咖啡师 — 日语对白

东京咖啡师用日语欢迎客人,温暖咖啡馆氛围,轻爵士背景音,镜头缓慢推近。

多语言唇同步:日语对白干净,环境音原生融合。

香港滑板手

9:16 竖屏短片 — 滑板手在香港天台完成一个 kickflip,街头环境音,人群欢呼。

人体动作:滑板物理 + 人群反应一次生成。

法国厨师教程

法国厨师用法语讲一道菜的做法,煎锅滋滋声,刀切菜板声,手持镜头。

音视频同步:煎锅、切菜声与画面动作严格对齐。

纽约街头小贩

街头小贩面带笑容用英语说 "Hello, my friend!",霓虹灯闪烁,微雨光泽。

图生视频:静态照片活化为带动作、天气和英语对白的镜头。

创作者爱用 Happy Horse 1.0

Plykit 上 Happy Horse 早期用户的真实反馈。

普通话唇同步惊人地干净 — 比我用过的任何模型都好。完全不需要后期对口型。

Lin — 旅行 Vlogger

音视频联合生成是颠覆性的。我可以一分钟内做出带原生法语对白的教程视频原型。

Marc — 法式烹饪频道

1080p 38 秒返回 + 同步音频,这个价格点没有任何 API 比得上。

Asha — 独立电影人

探索更多视频模型

在 Plykit 上对比 Happy Horse 1.0 与其他 AI 视频模型。

Kling

Video

快手出品,性价比高,自带原生音频的 AI 视频。

立即体验

Sora 2

Video

OpenAI 高级视频模型,电影级质感。

立即体验

Veo 3.1

Video

Google DeepMind 视频模型,最佳音频处理。

立即体验

Flux 2

Image

Black Forest Labs 顶级开源图像模型,极高保真度。

立即体验

Nano Banana

Image

Plykit 旗舰图像模型,Gemini 驱动的创意魔法。

立即体验

常见问题

关于 Plykit 上 Happy Horse 1.0 的常见问题。

准备好生成自带音频的 AI 视频了吗?

用阿里巴巴 #1 视频模型 Happy Horse 1.0 生成原生音频 + 多语言唇同步的 AI 视频。