介绍

使用 AI 制作视频时，你是否总是遇到这样的问题？画面效果令人惊艳，却需要额外制作所有声音，还得费力拼接音轨、调节节奏，结果常常声画不同步，环境声、特效声与人声各自孤立，听感割裂，彻底打破沉浸体验。

现在，「SeaArt UltraVision」带来突破性「音画同出」功能：一次生成，声画俱备。语音、音效、环境音全包办，节奏情绪自动契合，真正实现“所见即所闻”。

接下来，就为你展示如何用它轻松打造爆款视频！

一、「SeaArt UltraVision 模型」带来了什么改变？

1、核心能力一览

● 音画协同：语音节奏、环境声与画面动作同步，避免画面和声音割裂。

● 音频质量：支持人声、音效、环境声，音质更干净、层次更丰富，接近真实混音。

● 语义理解：能读懂聊天口语、复杂剧情，准确把握创作者意图，输出更合拍的音画内容。

➢ 总的来说，「SeaArt UltraVision 」只需要你提供文字或者图片，就会自动完成画面与声音的同步生成，配音一键搞定、音效同步生成，创作门槛再次降低，制作时间大幅缩短，专业级效果触手可及！

2、两条高效创作路径

#文生音画：输入文本，生成视频同时带有语音、音效、环境音

操作路径：①选择SeaArt UltraVision模型 ②选择文生视频，输入提示词 ③设置参数（时长、尺寸）

#图生音画：上传图片/文本，一键直出音视频，适合已有图像扩展为音画内容

操作路径：①选择SeaArt UltraVision模型 ②选择图生视频，输入提示词和参考图 ③设置参数（时长）

二、提示词教程及案例展示

提示词总结构：【场景】+【主体】+【运动】+【音频】+【其他】

（一）基础教学

想要大模型生产满意的视频，最关键的是让它听懂你想要什么，所以这套教程会按“由浅入深”的逻辑来带你写提示词，从最简单的【纯背景音效】，一步步过渡到【音乐视频】、再到【完整剧情演绎】——让你循序渐进，一次掌握视频创作的关键思路。

1、背景音效叙事：从动物治愈视频到高燃打斗场面

我们先从门槛最低、产出又最直观的方向开始：画面简单，主要靠丰富的细节音效让人瞬间沉浸进去。比如猫咪洗盘子、打斗戏、工具敲击等等，这些场景画面简单，但只要声音和动作同步到位，就会是一个精彩的视频。借助强大的 SeaArt UltraVision，你可以轻松做出各种风格的“画面 + 音效”视频内容。

例如：

● 可爱类：猫咪后厨洗盘子、狗狗吃饭 ASMR，小动作配上碗盘叮当、咀嚼声，非常治愈。

● 真实写实类：工厂流水线运转、维修工打磨金属、路边摊煎炒声，画面日常但声音细节很扎实。

● 紧张刺激类：拳套碰撞、金属刀剑摩擦、爆炸后的碎片滚落地面，适合做爽感战斗片段。

● 悬疑恐怖类：木楼梯轻响、走廊里风声夹杂脚步、门后若有若无的碰撞声，一下把氛围拉满。

● 科幻未来类：能量舱低频嗡鸣、机械臂滑轨声、金属舱门缓慢折叠，配合冷色调科幻舱室画面。

提示词模板：

【场景】：

一句话交代“人在哪 + 氛围如何”

例：深夜后厨、早晨小餐馆、废土荒原、机舱内部、森林深处...

【主体】：

谁是这条视频里主要发声的主角？

例：戴厨师帽的猫、搅拌碗的手、机器人、森林...

【运动】：

主角做了哪些会“发声”的动作？

例：搓盘子、敲碗、舔勺子、扒饭、脚踩金属凳……

【音频】：

把“所有声音”拆成两层来写：

● 近处动作音：

写清【物体/材质】+【动作】+【拟声词 / 声音形容】

例：

陶瓷盘被搓“嘶嘶”、不锈钢台面被敲“当啷”、木头折断“咔哧”、皮革摩擦“沙沙”

● 环境底噪音：

写清【环境里持续在响什么】（油锅小火、远处说话、空调、排风扇……）

例：

厨房里低频轰鸣、森林虫鸣风声、城市夜里的微弱车流、地下室的空洞回响、战场远处的爆炸余响

【镜头】：

谁是视觉主角，用“全景 / 中景 / 近景”交代清楚即可。

案例展示：

提示词：

深夜后厨，灯光偏冷，宽敞厨房内锅灶与操作台排布整齐，远处有厨师忙着翻炒、切菜，水槽旁泡沫翻滚，氛围是认真工作的厨房常态。头戴小厨师帽的橘白小猫站在矮凳上，爪子握住一个冒泡的陶瓷盘子，认真地“打工”中。猫咪用爪子在盘子上前后搓动，下爪拍打水花，最后轻轻敲击盘沿，水珠四溅。陶瓷盘被动作搓——嘶嘶嘶，水流拍打——扑通扑通，盘子被敲击——叮当，水滴落入水槽——滴答滴答。背景里排风机持续低鸣，叠加远处厨具有节奏的碰撞声，带着金属后厨特有的室内混响，镜头以全景拍摄猫咪与水槽，顺带扫过一旁正在炒菜的厨师。

提示词：

黄昏的废土战场，残破建筑半塌，远处黑烟翻涌，空气中弥漫灰尘与火光，氛围紧张压抑。一辆报废军卡停在沙地中央，附近堆着油桶和碎石沙袋，是爆炸的主要“主角”。镜头前方，一发高爆弹命中军卡底部，瞬间引燃油箱，火球冲天而起，冲击波掀翻沙袋，金属碎片和石块朝四周抛洒。军卡油箱被高爆弹击中引燃——“轰——！”（低频厚重的爆炸声）金属车壳被炸裂撕开——“咔嚓、哗啦！” 碎石与弹片砸落地面——“叮当、砰砰”（石块和金属撞击沙地与铁片）。远处战场仍在零星爆炸，传来间歇性的“隆隆”余响；空气中充满火焰燃烧发出的“滋啦啦”声，伴随微弱风声和空旷地形的回声，整体营造出混乱的战场氛围。

2、音乐向视频：说唱、纯音乐、MV等直接拿下

在学会了用「画面 + 音效」讲故事之后，很多人下一步都会想：那我能不能直接让模型帮我做一条完整的音乐视频，创作出契合画面的动人旋律？答案是：完全可以。借助强大的 SeaArt UltraVision，你可以轻松生成各种风格的音乐向视频。

例如：

● 歌曲演绎类：女孩轻声唱情歌、男孩悲伤唱民谣等

● 街头 Rap类: rapper 来一段炸街的 Rap，鼓点和口型严丝合缝。

● 纯音乐类：电子乐、钢琴曲、弦乐等

提示词模板：

【场景】

一句话交代“音乐在什么地方响起 + 氛围如何”。

例：夜晚屋顶、小酒馆舞台、卧室落地窗前、地铁通道、演唱会后台……

【主体】

写清“发声的这个人/乐手”是谁：性别 / 年龄 / 穿着 / 身份

例：街头歌手、独立乐队主唱、练习室里的练习生、街头 rapper...

【运动】

演唱 / 说唱 / 演奏时的动作：

例：抱着吉他坐在椅子上、双手握麦站在舞台中央、闭眼轻轻点头、跟着节奏摆动肩膀、手指在琴键上滑动……

【音频】

● 唱歌类（有歌词的歌）

写成：“歌词内容” + 演唱风格 + 伴奏描述 + 情绪

例：

【女生，声音清澈】温柔地唱：“从遇见你的那天起，我的世界开始有了意义……”演唱风格流行 (Pop)，伴奏为木吉他清弹，情绪深情、略带忧郁

● 说唱类（Rap）

写成：“押韵句子” + 节奏流派 + 情绪

例：

【年轻rapper，低沉有力】跟着节奏说唱：“City lights, long nights, I’m on my grind, no goodbyes.”，Boom Bap，自信、带一点挑衅

● 纯音乐类（没有歌词，只要氛围）

写成：乐器类型 + 音乐流派 + 情绪

例：

音频：钢琴独奏 + Classical / Ambient，安静、略微忧郁，适合作为深夜城市远景的 BGM

【镜头】

唱歌 / 说唱：中近景对准脸和上半身，适当给嘴型、手势、乐器的特写；

纯音乐：镜头可以慢慢推、慢慢移，去配合音乐的节奏和情绪，比如缓慢飞过城市夜景、从窗外雨滴扫到屋内的人影等。

案例展示：

提示词：

花园里，傍晚的柔和阳光照在草地和花丛上，背景是模糊的灌木和几丛盛开的玫瑰。一位长发女孩穿着浅色连衣裙，站在花丛前，对着镜头轻轻歌唱，身体微微左右晃动，双手自然垂在身侧。[女生，声音清澈，语速舒缓]温柔地唱：“When the daylight fades and the stars appear, I still feel your heartbeat, whispering in my ear.” 伴奏为柔和的钢琴加轻微弦乐，情绪浪漫、安静。镜头用中近景对准女孩的上半身，背景稍微虚化，保留花园的颜色和光晕，整体画面唯美、柔和，像一段简单的英语情歌 MV。

提示词：

黄昏时分的琴房，夕阳洒在黑白键上。一位年轻女孩坐在钢琴前，裙摆轻垂，手指温柔地落在琴键上，表情沉静且专注。女孩保持坐姿，双手来回轻轻起伏，眼神偶尔望向窗外，琴键下方的脚踏板浅浅压下，节奏平稳。钢琴独奏, 古典流派,忧郁情绪，略带温柔的颤音，配以屋内微弱木质共鸣。镜头拍摄女孩与三角钢琴，慢慢推近至她抬起的手指和滑动的琴键。

3、剧情类叙事：从单人Vlog到多角色短剧

在前两部分解决了“音效”和“音乐”之后，下一步就是让视频真正承载故事情节。这意味着更高的要求：口型需与台词匹配，动作和手势要传递潜台词，语气需承载细腻的情感变化。现在，借助 SeaArt UltraVision 的强大理解与生成能力，你只需在提示词中清晰地交代：谁出场、发生了什么事、情绪如何起伏，就能直接生成故事感饱满的叙事片段。

这里的故事可以很简单：

● 单人叙事：旅游Vlog、沉浸式吃播……

● 多人互动：情侣在地铁站告别、同事在茶水间交锋、好友在咖啡馆交换秘密……

提示词模板：

【场景】

一句话交代“人在哪 + 氛围如何”。

例：海边栈桥、城市天台、卧室书桌、办公室茶水间、傍晚客厅……

【主体】

● 单角色：

写清“这个说话的人”是什么人设：性别 / 年龄感 / 穿着 / 身份

例：旅游博主、美妆博主、社畜上班族、吐槽博主等...

● 多角色：把每个人都标注出来

【角色A：穿白衬衫的上班族】、【角色B：戴眼镜的同事】

简单写一下他们当前的情绪关系（在拌嘴 / 在吵架 / 在讨论）

【运动】

说话时顺带的肢体动作

例：指向远方、扶着咖啡杯、轻轻晃动身体、抬手比划、靠在栏杆上、双手叉腰、摊手叹气……

多角色时，可以分别写：A 在指纸张，B 双臂抱胸等，方便模型知道谁在做动作。

【音频】

角色标签 + 情绪 + 语速 + 音色 + 触发词（说 / 笑着说 / 抱怨地说等）+ 台词句子**

● 单角色示例：

【女孩，甜美清亮，语速自然】笑着说：“Hey guys, check out this view—sunset vibes are unreal today!”`

● 多角色示例：

【男声，压抑而低沉，语速中等】抱怨地说：“You promised you’d call before making the decision!”`

【女声，激动而坚定，语速稍快】提高声音回怼道：“I’m tired of waiting for you to act—this is my life too!”`

记得把“笑着说、小声说、激动地说、无奈地说、抱怨地说”这类音频触发词写进去，模型更容易做出口型和对应的情绪起伏。

【镜头】

单角色一般用近景 / 中近景：对准脸和上半身，既能看到嘴型，又能看清表情；背景轻微虚化，只做氛围铺垫，不抢戏。

-多角色时，可以写：“中近景对准两人的脸和上半身，必要时在 A / B 之间做简单正反打切换。”

案例展示：

提示词：

海边，夕阳洒在海面泛起金光，远处浪花拍打岸边。一个旅游博主女孩正举着手机拍摄，她轻轻摆动身体，最后指向日落的方向。[女孩，甜美清亮，语速自然]地说，“Hey guys, check out this view—sunset vibes are unreal today!”。近景捕捉女孩脸部与手势，背景稍微虚化呈现海景与夕阳，营造出轻松的 vlog 感。

提示词：

傍晚的公寓客厅，窗外霓虹初亮，暖色灯光与冷色窗外光交织，沙发靠墙、一盏落地灯营造出私密的居家氛围。一对年轻情侣站在沙发前，男方双臂交叉眉头紧锁，女方双手叉腰脸颊微红，彼此距离只有一步之遥，气氛紧绷。男方微微向前倾，女方下巴抬高，语气激动但保持站姿。[男声，压抑而低沉，语速中等]地说道， “You promised you’d call before making the decision!”[女声，激动而坚定，语速稍快]地说道， “I’m tired of waiting for you to act—this is my life too!”镜头为近景正面。

（二）重点教学

1、多角色对话场景 Prompt 注意事项

当视频中存在多个主体或角色时，清晰的提示词是生成自然对话的关键，需要明确界定每个角色的身份、台词和互动方式。

#1 角色命名固定

核心原则：用固定的标签指代h每位说话人，别用“他/她”这种模糊词。

正确示范：【角色A：红衣记者】、【角色B：候选人】

错误示范：【记者】说...【他】又说...（模型分不清是谁）

#2 动作绑定角色

核心原则：先描述动作，再写台词，让模型知道是谁在干什么。

正确示范：先描述动作，后接台词：红衣记者瞪大眼睛，挥手追问。【红衣记者，焦急地说】‘这背后到底藏着什么？’”

错误示范：【红衣记者】：“这背后到底藏着什么？”（不说明动作时，台词可能被随机分配）

#3 音频细节明确

核心原则：为每个角色赋予独特的音色和情绪标签。

正确示范：【候选人，平静低沉、语速稍慢】地说：“我会详尽解释。”【红衣记者，急促清亮】地反问道：“那为什么迟迟不回应？”

错误示范：【候选人】说...【记者】说...（两人声音特点没有明确区分，模型容易混在一起）

#4 控制时间顺序

核心原则：用“紧接着” “接着” “这时候对方回应”等词，控制节奏。

正确示范：候选人皱眉，【候选人】说，‘我还没答应。’ 紧接着，【红衣记者】说，‘那你打算什么时候给答复？’”

错误示范：【候选人】：“我还没答应。”【红衣记者】：“那你打算什么时候给答复？”（模型可能一次性让两句话一个人说完）

2、电影级打斗场景 Prompt 模板

电影里那种拳拳到肉、节奏紧凑的打斗，其实也可以让大模型帮你还原。下面这个「电影级打斗场景」模板，教你快速写出高燃的打斗 Prompt。

提示词模板：

【场景】

战斗发生在【地点 / 环境，如废弃仓库、雨夜小巷、科幻飞船走廊】等场景中，整体光线偏【明亮 / 昏暗 / 强烈逆光】，营造出一种【紧张压迫 / 写实粗粝 / 电影级】的氛围感。

【主体】

画面里出现【战斗者 A：外形 + 服装 + 气质】和【战斗者 B：外形 + 服装 + 气质】，两人【左右 / 前后】相对而立，起手时摆出【如握拳、抬起防守架、压低重心等】姿势，给人【冷静老练 / 冲动狠辣】的第一印象。

【运动】

● 格斗过程：

双方以【例如极其精准的节奏感、娴熟的格斗训练】来进行防守——通过【双臂格挡、手掌轻推偏移、手腕灵活旋转等动作】拆解对手攻势，但【左侧 / 右侧 / 某一方】战士的动作明显更老道，出招干净利落，像真正的高手。

● 战斗升级：

随着攻防节奏加快，镜头开始【绕圈、上扬、贴近肢体穿梭】运动，【优势一方战士】以【不可思议的速度、近乎毫不费力】挡下每一次攻击，拳脚从身边掠过往往只差【毫厘】，随后用【短促、锋利】的反击精准打中对手要害。

● 环境互动：

【元素，如尘土、碎石、雨水】在他们脚边被不断带起，镜头【贴地低飞、忽然抬升】掠过这些细节，在【再度交锋 / 关键一击】的瞬间凝固画面，【占优的战士】始终在节奏上占据主导。

【音频】

每次重击带来的“砰”声、拳脚划破空气的破风声、鞋底与地面的摩擦声、急促的喘息，再加上环境底噪（如仓库空旷回声 / 雨点拍打地面 / 远处机器低鸣），共同塑造出富有质感的打斗听觉体验。

【镜头】

镜头采用【低角度广角 / 俯视 / 特写等】机位，贴近【人数】名战斗者之间进行拍摄，并始终围绕【地点 / 环境】这一空间展开运动，让观众仿佛置身战斗现场。

提示词：

昏暗的废弃仓库，顶灯微弱闪烁，整体氛围紧张压迫感。两名战斗者相对而立：左侧战士动作狂放，进攻欲望强；右侧战士身形稳健，气质冷静老练。两名战斗猛然冲向彼此。第一次交锋的重击带来强烈的震动，画面随之颤动。镜头迅速跟随他们的手部动作，捕捉到一连串快速的拳打脚踢。两人都以极其精准的时机完成双臂格挡、手掌偏移、手腕旋转，但右侧的战士动作如同大师一般。镜头高速环绕他们，右侧战士毫不费力地化解每一次攻击，干净利落地将打击推开。左侧战士爆发出一连串狂暴攻击。镜头突然上扬，穿梭在他们的手臂间，右侧战士以不可思议的速度拦截每一击，攻击擦身而过仅差毫厘，随后用短促、犀利的反击精准命中。音频重点突出每一记重拳砸中身体或墙面的沉闷“砰”“咚”声，间或夹杂少量拳风划过空气的呼呼声和地面轻微回响，整体听感偏厚重、有冲击力。镜头以低角度广角拍摄。

（三）常见音频触发词

为了让大模型更准确地生成你想要的音频内容，可以针对不同类型选择合适的描述词，精准触发对应的音效、音乐或语音风格。

#音频类型：语音

表达方式：说、问、告诉我、解释道、叹息道、朗诵、独白、旁白、低语

示例：一个男人坐在桌旁，平静地对另一个人说话。

情感/态度：轻声说、小声说、激动地说、认真地说、温柔地说、正式地说、抱怨道、迟疑地说、冷静地说、讽刺地说、鼓励地说

示例：在拥挤的房间里，两个朋友靠近，轻声说了一个秘密。

声音特质：嘶哑的、清晰的、颤抖的、甜美的、低沉的、语速很快、语速很慢、断断续续

示例：一位病人醒来，用嘶哑的声音请求帮助。

#音频类型：对白

互动形式：问、回答、接着说、回应、争吵、讨论、谈判、安慰、劝说

示例：两个朋友在咖啡馆里，一人向另一人问了一个私人问题。

动作音：喊、抱怨、调侃、打趣、嘟囔、惊呼、哭泣/啜泣、尖叫、大笑/窃笑、叹气

示例：一个父亲站在门口，大声喊着在院子里玩耍的孩子。

#音频类型：唱歌

技巧/风格：清唱、轻轻唱、哼唱、放声唱、美声、流行唱腔、颤音、假音、和声

示例：一位歌手站在舞台中央，没有伴奏，开始清唱歌曲的第一句。

情绪/状态：情绪激昂地唱、温柔地唱、忧郁地唱、开心地唱、跑调

示例：一位歌剧演员在?部分，情绪激昂地唱着高音。

#音频类型：Rap

专业词汇：rap、说唱、节奏感、押韵、flow、快速、慢速、强烈节奏、即兴、重低音、快嘴

示例：一位街头说唱歌手在霓虹灯下，进行一段rap。

#音频类型：音效

生活动作：开盖、倒水、翻书、敲击、摔落、撕开、拿起、放下、点击、咀嚼、吞咽、脚步声、急促地跑步声、开门/关门声

示例：特写镜头：一个人正在打开一瓶碳酸饮料的开盖声。

材质碰撞：叮、啪、咔哒、咚、砰、脆响、摩擦声、刮擦声、玻璃破碎、金属撞击

示例：一个玻璃杯被金属勺子轻轻碰触，发出叮的一声。

自然声音：哗啦（水）、呼呼（风）、噼啪（火）、咕噜（冒泡）、雷声、雨滴声、暴风雨、雪地踩踏声

示例：一条小溪里的水流过石头，发出哗啦声。

机械声：轰鸣、滴、嗡、咔嗒、启动声、警报声、刹车声、机械运转/齿轮声

示例：一辆跑车在公路上轰鸣着加速。

乐器声：钢琴声、吉他拨弦声、小提琴、鼓点、低音贝斯

示例：一位演奏家正在音乐厅里弹奏钢琴声。

#音频类型：环境音

城市：车流、人群低语、地铁、商场广播、街头风声、施工声、飞机飞过声、鸣笛声、市集喧闹

示例：在繁忙的十字路口，持续不断的车流噪音。

自然：海浪、风声、鸟叫、虫鸣、溪水、瀑布声、动物吼叫声、夜晚虫鸣、雨林

示例：清晨的沙滩，传来舒缓的海浪拍打声。

室内：空调声、键盘声、纸张摩擦、微弱混响、酒吧/咖啡厅背景音乐、医院走廊安静的氛围、图书馆寂静、炉火燃烧声

示例：在安静的办公室内，只有持续低沉的空调声。

三、FAQ

Q1：SeaArt UltraVision 目前支持哪些语音输出语言？

SeaArt UltraVision 目前支持的语音输出为英文与中文。您可以使用任何语言输入文本，系统会自动识别其中的英文或中文内容并生成对应的语音台词，其他语言的部分暂不支持生成语音。

Q2：提示词为什么提示不到位，画面声音总是不匹配？

关键词是“分层描述”。建议按【场景 / 主体 / 动作 / 音频 / 镜头/ 风格等】分点提示，不要把所有元素堆在一句话里。比如描述音效时，用“玻璃窗轻轻关上——叮”而不是模糊地说“关门有声”，清晰的提示词能让模型更快理解。

Q3：创作内容总想堆更多元素，结果反而更乱？

“少即是多”更适合 AI。一次创作集中 1-2 个核心元素（比如一段对话或一个显著音效）·，详细写清楚，再通过后续迭代逐步添加音画层级。复杂场景可以拆成多个短片分别生成，然后再拼接。

Q4：音频触发总失败，导致效果不好？

请参考我们整理的“音频触发词”表格（如“说”“激动地说”“钢琴声”“轰鸣”等），在音频段落中明确写出触发词。例如要表达怒气对话就写“【男声，愤怒地说】……”，这样的线索能显著提升音频识别率。

Q5：不会写提示词怎么办？

先明确想要的创作方向（场景、氛围、音频类型），再调用创作助手或参考示例提示词生成初稿，得到结构化内容后可再微调细节，快速出可用提示词。

一次成片 效率翻倍！ 五分钟上手「SeaArt UltraVision」

介绍

一、「SeaArt UltraVision 模型」带来了什么改变？

1、核心能力一览

2、两条高效创作路径

二、提示词教程及案例展示

（一）基础教学

1、背景音效叙事 ：从动物治愈视频到高燃打斗场面

2、音乐向视频：说唱、纯音乐、MV等直接拿下

3、剧情类叙事：从单人Vlog到多角色短剧

（二） 重点教学

1、多角色对话场景 Prompt 注意事项

2、电影级打斗场景 Prompt 模板

（三） 常见音频触发词

三、FAQ

Q1：SeaArt UltraVision 目前支持哪些语音输出语言？

Q2：提示词为什么提示不到位，画面声音总是不匹配？

Q3：创作内容总想堆更多元素，结果反而更乱？

Q4：音频触发总失败，导致效果不好？

Q5：不会写提示词怎么办？

一次成片效率翻倍！五分钟上手「SeaArt UltraVision」

1、背景音效叙事：从动物治愈视频到高燃打斗场面

（二）重点教学

（三）常见音频触发词