字节跳动与香港大学联合开源的视频生成项目 Goku(悟空)是一款基于流动(Rectified Flow)Transformer 架构的先进 AI 视频生成模型,通过文本或图像直接生成高质量视频内容,尤其在虚拟数字人和广告场景中表现突出。
此外,字节还推出了 Goku+,这是一个基于 Goku 的广告视频生成模型,专门用于生成真人出镜的口播广告视频和产品广告宣传片。不过目前只发布了论文,这个模型大概率不会开源?
开源地址:https://github.com/Saiyan-World/goku
核心功能
① 文本/图像生成视频:支持生成动画、自然风光、动物行为等多种场景,视频长度可达20秒以上,画面连贯稳定。
② 虚拟数字人生成:Goku+子模型可生成超现实数字人视频,适用于直播带货、客服讲解等场景,手部动作和面部表情高度自然。 ③ 广告视频优化:输入产品图或文本描述,自动生成产品展示或互动广告视频,成本仅为传统方法的1%。④ 生成质量:在权威测试 VBench 中,文本到视频生成得分达84.85,创下新纪录(SOTA)。
① 智能文案生成上传商品信息后,模型可通过RAG检索增强技术,结合商品特点自动生成细腻、有吸引力的带货话术。例如,针对一款护肤品,它能从成分、功效、用户评价等维度提炼卖点。
② 多模态交互 语音合成(TTS)与语音识别(ASR):支持将文案转为自然语音,或实时识别观众语音提问并自动回复。 虚拟数字人:集成曦灵数字人技术,生成逼真主播形象,搭配ComfyUI工具合成带货视频,实现“无人化直播”。 ③ 实时信息查询通过内置的 Agent 功能,可联网查询快递信息、商品价格趋势等数据,提升直播互动性和可信度。
第三个
浙大×字节开源 MimicTalk
浙江大学与字节跳动联合开源的 MimicTalk 项目,15 分钟极速生成 3D 说话人脸的能力,效果还行!
暂无评论内容