国内超牛的3个AI视频神器开源

国内超牛的3个AI视频神器开源

第一个

字节发布 AI 视频生成神器:Goku

字节跳动与香港大学联合开源的视频生成项目 Goku(悟空)是一款基于流动(Rectified Flow)Transformer 架构的先进 AI 视频生成模型,通过文本或图像直接生成高质量视频内容,尤其在虚拟数字人和广告场景中表现突出。

20250305112633878-360截图20250305112506877

此外,字节还推出了 Goku+,这是一个基于 Goku 的广告视频生成模型,专门用于生成真人出镜的口播广告视频和产品广告宣传片。不过目前只发布了论文,这个模型大概率不会开源?

开源地址:https://github.com/Saiyan-World/goku

核心功能

① 文本/图像生成视频:支持生成动画、自然风光、动物行为等多种场景,视频长度可达20秒以上,画面连贯稳定。

20250305112811902-微信图片_20250305112800

② 虚拟数字人生成:Goku+子模型可生成超现实数字人视频,适用于直播带货、客服讲解等场景,手部动作和面部表情高度自然。  
③ 广告视频优化:输入产品图或文本描述,自动生成产品展示或互动广告视频,成本仅为传统方法的1%。
④ 生成质量:在权威测试 VBench 中,文本到视频生成得分达84.85,创下新纪录(SOTA)。  

20250305112859186-微信图片_20250305112834

第二个

开源卖货主播大模型 Streamer-Sales

开源项目 Streamer-Sales 号称能通过 AI 大模型技术,让每个人都能拥有“销冠级”的带货能力。  
Streamer-Sales 是由开发者 PeterH0323 团队打造的卖货主播 LLM 大模型,专注于从商品特点出发,生成激发用户购买欲的解说文案。
它不仅支持文案创作,还集成了虚拟数字人生成、语音交互、实时信息查询等功能,堪称直播带货领域的“瑞士军刀” 

开源地址:https://github.com/PeterH0323/Streamer-Sales

20250305113144720-640

① 智能文案生成
上传商品信息后,模型可通过RAG检索增强技术,结合商品特点自动生成细腻、有吸引力的带货话术。例如,针对一款护肤品,它能从成分、功效、用户评价等维度提炼卖点。  

20250305113245331-微信图片_20250305113225

② 多模态交互 
语音合成(TTS)与语音识别(ASR):支持将文案转为自然语音,或实时识别观众语音提问并自动回复。  
虚拟数字人:集成曦灵数字人技术,生成逼真主播形象,搭配ComfyUI工具合成带货视频,实现“无人化直播”。 
 
③ 实时信息查询
通过内置的 Agent 功能,可联网查询快递信息、商品价格趋势等数据,提升直播互动性和可信度。 

第三个

浙大×字节开源 MimicTalk

浙江大学与字节跳动联合开源的 MimicTalk 项目,15 分钟极速生成 3D 说话人脸的能力,效果还行!

开源地址:https://github.com/yerfor/MimicTalk

① 15 分钟极速训练 
传统数字人模型需数小时甚至数天训练,而 MimicTalk 通过动静结合的高效微调方案,仅需单段 2 分钟视频 + 15 分钟训练,即可生成个性化模型,效率提升数十倍。

20250305113427445-360截图20250305113414393

② 表情自然,口型精准
基于 NeRF 技术,MimicTalk 能捕捉细微的面部肌肉运动,实现眉毛挑动、嘴角微扬等自然表情,口型与语音高度同步。用户实测反馈:“比市面多数闭源方案更灵动!”

20250305113541734-微信图片_20250305113524

③ 低成本数据要求
无需专业动捕设备,仅需一段2分钟的自拍视频即可完成数据采集,普通手机摄像头也能胜任。这对中小企业和个人开发者尤为友好。
本社区资源仅供学习交流使用请勿商业运营,严禁从事违法,侵权等任何非法活动,否则后果自负!
© 版权声明
THE END
小青建议:机会是留给有准备的人
分享
评论 抢沙发

请登录后发表评论

    暂无评论内容