“不会创业” 的创始人,怎么做出用户量第一的 AI 视频产品
解锁 AI 视频的病毒传播后,爱诗推出 PixVerse 中国版 “拍我 AI”。
文丨王与桐
编辑丨程曼祺
“不够年轻。”2023 年初,我们第一次和投资人聊到正在筹备创业的王长虎时,这是对方的第一反应。
一种观点是,35 岁以下的创始人更适合大模型创业,不管是做模型还是应用——模型技术迭代快,年轻人学得更快;而做应用要洞察用户,AI 的早鸟用户就是年轻人。
可偏偏,在数家视频生成创业公司被收购或关停时,是 80 后的王长虎,搭配联创 90 后谢旭璋,带着既做模型,也做应用的爱诗科技跑到了行业头部。
爱诗的全球用户现在已超过 6000 万,是可灵当前用户数的近 3 倍;其中,上线刚 6 个多月的 PixVerse 移动端月活已超过 1600 万。
可灵、MiniMax 海螺、Pika、Runway 等产品主要服务专业视频制作者,爱诗则在有相近功能的网页端产品之外,也做了面向 to C 用户的视频生成移动端产品,玩法又潮、又简单:
借助 “模版”,用户上传照片、等上几秒后,就可以把任何人物封装成一个小玩具,平地入海、变身美人鱼,让自家的猫跳科目三或体验一次绿巨人变身,然后再一键分享这些视频到 TikTok、Instagram 等平台。“很多用户的第一个万赞、十万赞、乃至百万赞的短视频,就是用 PixVerse 做的。” 谢旭璋说。
上个月,一款咧嘴笑模版将 PixVerse 推上美国 iOS 下载榜前五。去年底爆火的由 PixVerse 制作的超级英雄变身视频,目前全网播放量已超 10 亿次。
今天(6 月 6 日),PixVerse 的国内版 “拍我 AI” 正式上线,更多中国用户也能简单、快速地体验 AI 视频制作。
爱诗两位创始人过去都没有完整操盘过 to C 产品:王长虎是中科大博士,有近 20 年 AI 研究经历,2017-2021 年间,他担任字节跳动视觉技术负责人,在抖音从 0 到 1 增长最快的时期提供技术支持。谢旭璋则毕业于北大光华管理学院,创业前的 6 年一直在光源资本工作。
爱诗的阶段性成绩,直观原因,是他们试到了新的产品形态,并找到了病毒式传播的爆发点;而背后的基础,又来自自研视频模型的性能,效果要好、速度要快。
越是 C 端用户,越不能忍受频繁的抽卡和生成时等太久。2024 年 10 月,PixVerse 发布 V3,大幅减少 “抽卡” 频率;两个月后,V3.5 又将生成时间压缩到 10 秒以内,满足了 C 端用户的基本要求。成立至今,PixVerse 已总共更新了 7 版模型。
爱诗方面称,现在他们的订阅收入已能覆盖公司绝大部分成本费用,现金流接近为正。
“我不会创业” 王长虎说,但没关系,“创业就是边做边学”。
10 亿次播放的 AI 变身特效,PixVerse 的 “病毒传播”
晚点:为什么现在这个时间点进国内市场,做中国版?
谢旭璋:我们本身就想做全球产品,中国是其中非常大的市场,早期我们人人太少顾不过来,现在我们产品开发、模型迭代都走上正轨了。
同时,AI 视频的场景已经被探索过了,像去年我们在做毒液变身时,中国应该有小几百万人来用过这个特效,在全球各种社交媒体上,变身特效视频被播放超过 10 亿次,比看过原电影的人要多。我记得有当时有很多人在闲鱼上发帖,花钱找人代做视频,所以我觉得中国用户的付费意愿或者使用意愿和海外是相近的。
晚点:类似变身等模版,现在是 PixVerse 和 “拍我 AI” App 上的核心玩法,不需要写 Prompt,对普通人非常友好。而且你们刚上了信息流功能,用户可以直接在平台上分享生成的视频。从模型到具体的产品形态,决策是怎么发生的?
王长虎:我在创业时就有目标要服务普通人,愿景是 “帮助每个人成为生活的导演”。
产品形态是逐渐清晰的。两年前大家不相信视频生成是因为技术不好;一年前只有专业创作者才能忍受很慢的生成等待时间。所以我们一直在过程中提升模型能力,每两个月就有大的提升。
在去年 10 月,我们的产品在海外破圈了,是因为我们的 V3 模型能把过往极低的抽卡概率拉到接近 100%。这样我们用最好的模型,搭配产品推出了模版生成功能,二者结合,普通人不需要输入 Prompt,只需要上传一张图片,选好模版就能达到 100% 的成功率,这是真的让普通人玩起来的时刻,我们认为这是视频生成的 ChatGPT 时刻。
两个月后,模型 V3.5 又把用户等待时长从分钟级降低到了 10 秒内,所以我们决定让 App 上线。做到一定标准,用户才会选择你。这是结果,不是原因。
晚点:所以你们去年曾说,爱诗的目标客群就是每天玩抖音、TikTok 的普通人?
谢旭璋:对,所有能看视频的人可能都有用视频表达的欲望,只是过去表达欲没被满足。我们希望用 AI 帮助这些人迈出第一步,让他们先做出来第一个好玩的、跟自己有关的、可以分享的视频。很多用户的第一个万赞、10 万赞、乃至百万赞短视频,就是用 PixVerse 做的。
晚点:选择 to C 方向,也意味着可能与大厂有更直接的竞争。比如即梦也是一个有视频生成功能的 to C 产品;而抖音、快手也一直都有特效、模版的玩法。你们作为新公司,跑出来的机会是什么?
谢旭璋:首先是我们产品背后的基础是自己的视频模型,我对我们模型迭代比较有信心。再就是视频行业不管在国内还是海外,是一个还在发展,还在快速变大的一个行业:优酷、爱奇艺、NetFlix 没有被抖音、快手、TikTok 取代,电视台、电影院也没有被优酷、爱奇艺、NetFlix 等取代,现在还有了直播、短剧等形式。同样的,新的视频平台都不是老的视频平台们做出来的。
随着视频行业的发展,需要更大的内容供给,这是很大的增量,不存在说大公司把所有机会都干掉了。
晚点:你们的视频生成模版和短视频软件上的特效功能有什么区别?他们也能做出很逼真的视频。
王长虎:这就像 ChatGPT 之前也有微软小冰,可以对话但是效果不一样。
短视频里的特效不是端到端的,每一个特效都要针对性去调整、设计;而用生成技术产生模版,效率高很多,同时能让用户也参与贡献模版,不是光靠我们的团队在做。这是过去的短视频特效没有的生产机制——所以我们的模版内容多元、足够有差异化。
晚点:拿 “毒液” 变身模版为例,门槛或者说壁垒在什么地方?今天我是另外一家想做“毒液”变身视频模板的公司,我也可以 copy?
谢旭璋:我觉得几个点可以参考。“毒液” 变身已经火了半年了,到目前为止应该没有哪家的模型能完全复现这个效果,所以本身这个技术有难度,需要高质量的生成模型,才能让变身过程和结果都符合预期,另外还需要做一些微调。
再就是需要用户洞察,变身火了可能几周到一个月,但之后我们也能持续做出让用户喜欢的模版。
晚点:一直有 “火” 的模板?怎么做到的?这真能持续吗?
谢旭璋:我们内部会不停有创意出来,未来也希望让用户能贡献创意。但比较重要的是基础模型,基础模型不好,很多创意是没有办法实现的。
晚点:我在你们的产品界面里看到很多英语、俄语、泰语的视频。实际上对你们来说,哪个市场是你们占比比较大的?
谢旭璋:视频是一个更通用的传播媒介。所以一个好玩的模板和效果,在美国能火,中国能火,在巴西也能火,在泰国也能火,在欧洲也能火。具体到收入占比,GDP 高的国家就会相对占比更大。
晚点:你们提前计划了主攻哪些海外市场?还是看哪个市场先跑出来?
谢旭璋:我们现在还没有那么精细化,是让产品自己跑出来。
模型技术的进化,将模糊内容创作和消费的界限
晚点:你们觉得在全球范围内,视频生成行业里面公认的第一梯队的模型来自哪几家公司?
谢旭璋:模型方面,我认为海外的 Google 做得好,国内是我们、快手可灵和 MiniMax 海螺。视频生成领域里,用户量最大的三个公司就是这 3 家中国公司。
晚点:你刚刚没提 OpenAI,Sora 已经不算第一梯队了吗?
谢旭璋:对,我们觉得 Sora 最后发布的这个模型跟当时 demo 差距非常大,开玩笑说,前后差了十个 PixVerse。它其实开了一个不太好的头,导致那之后很多公司会发 demo 称做到了什么,但实际交付不了。
晚点:你们会担心接下来会有一个特别强的开源模型,别的应用公司可以在这个开源模型上达到和爱诗相似的效果吗?
王长虎:现在也有很强的开源模型,比如阿里通义万相的视频大模型。但对做好应用,开源不是最重要的,DeepSeek 牛,不仅牛在开源,而在于他模型确实好。ChatGPT 刚出来时,也冒出了好多应用。但随着模型进化,很多应用自然就被颠覆了。
晚点:所以你觉得自己掌握模型能力非常重要。
王长虎:对,特别是在不是成熟的,还在进化中的阶段。
晚点:视频生成领域也在出现一些新的技术趋势,比如从 DiT 架构(Diffusion Transformer,结合扩散模型和 Transformer 架构的生成模型)到有人推出了自回归技术(Autoregressive model,可逐步生成序列)的视频生成模型。你怎么看这个方向的潜力?
王长虎:我过去 20 年都在做研究,研究界的好多论文,你都可以说是新趋势。要辩分辨哪些是在讲故事,哪些是真正有效。
自回归一方面不是一个新东西,之前不少公司也探索了很久,至少到目前为止,最主流、效果也最好的模型仍是 DiT;另一方面,自回归是一个有希望的方向,GPT-4o 在图片生成上,很可能就是用了自回归加 Diffusion 的架构。
晚点:OpenAI 接下来是否会把自回归也用到视频生成上?如果他们真这么做,有可能带来断层的体验领先吗?
王长虎:最重要的还是看结果。DiT 架构视频内容是一次生成,自回归是顺序生成。不同的方法各有优劣。4o 确实引发了大家的探索,自回归的劣势在视频生成里会放大,因为逐帧生成会有累积误差,能不能用 Diffusion 技术弥补?最近还有一个趋势,就是推进实时视频生成的发展。
晚点:指生成的时间跟视频长度相等,或者说更快一点?
王长虎:有两个里程碑。一是我们在模型 V4 时就能做到用 5-7 秒生成 5 秒长的视频,并且我们是在不损失质量的情况下做到。这样人在观看视频时,视频也在同时生成下一秒,就可以无限生成下去。
二就是前面的那 5 秒,能不能实时生成?这是更难的,但也更有价值,会开启更大的世界。
晚点:这可能会带来应用上的变化?后面的内容在前面观看时还没有生成,相当于能做一些定制化的内容,或者有交互。
王长虎:过去这两年我看到视频的创作和消费的界限越来越模糊了。未来能够做到每个消费者都能具备创作能力;并且每个看视频的人都可以去跟视频实时交互,改变内容,比如我对泰坦尼克号的结局不满意,我就可以让视频的走向改变。
晚点:可能我们看视频时,并不希望所有内容都是我想出来的,这样我也会很累,而且有时也需要内容给我们 “意外”。
王长虎: 这事对创作本身也有影响,因为不同的交互导致不同的剧情走向,视频本身就能知道不同的群体喜欢的是什么,就能自我进化,做出更好的视频。
因此还会带来的一个改变可能是,视频和游戏的界限越来越模糊。
晚点:你们模型为什么能做到比别人快?
王长虎:综合优势,模型架构、算法、工程、产品能力。外界解读时会希望能找到一些简单的结论,但这件事其实是非常难的。去年一些比我们融资更多的大模型公司不缺钱,不缺人,不缺数据,但其中多数公司依然做不出来(视频生成模型),说明这件事很难。
晚点:综合能力不只有模型,那现在模型和产品在爱诗的成长中各自扮演的角色是什么?
王长虎:这是两个引擎。发展前期,模型一定是更重要的,一旦模型做不好,会影响用户的产品体验;当模型能做到全球最好,并且能持续进化时,产品的比重越来越大;产品能看到用户真需求,就会牵引技术的发展。
晚点:大厂也不缺资源,为什么你们能比大厂做得快?有观点认为,团队小,目标简单。
王长虎:这就是创业公司的优势所在,没那么复杂,所以效率高。大公司的业务,没人管可能能跑出来;业务被重视了、升级了,就不知道是好事还是坏事了。
视频生成被低估,是压力也是好处
晚点:创业两年多,你有哪些成长?
王长虎:这两年一直在成长。前段时间我还分享,其实我不会创业,创业其实是要边做边学。公司在发展过程中要做很多决策,这些决策、这个公司的发展跟创始人息息相关。所以这个过程中我们在很多高压的情况下做了抉择。
晚点:你们在哪些 “高压” 情况下做了抉择?
王长虎:创业公司是持续有压力的,我们是在做一个大模型,很花资源。有一些时刻是一旦做错了你就没有机会。因为要烧很多钱的,一旦做错了就可能没有机会再做第二次。
比如说 2023 年初我们要不要做视频?那时候很多人都不认同这件事情,大家都在看大语言模型。
晚点:2023 年初您刚创业时我们聊过,您当时还没有提到要做视频里的视频生成这个方向。
王长虎:边做边学,那时目标还是 AI 生成,至于做图片、做视频、做大模型?还在思考过程中。
晚点:后来怎么定位到现在的视频生成方向?看到了哪些迹象?
王长虎:2023 年 6 月时,我们资源到位,核心人员到了之后,我们真的需要做事情的时候,那时候就明确的看到了这个方向,决心 All in 视频生成。
当时看到大语言模型蒸蒸日上,也有人在做图片生成、3D 生成,但唯独没有人做视频生成。大家的反馈是觉得太难了。但我觉得这样是不对的,这就有了非共识:我们觉得视频生成是大事,而我们过去在视频和 AI 方面有经验,能赢在全球。
晚点:视频生成价值被认可是 2024 年 2 月 Sora 出现之后,这之前是非共识。你觉得到现在,大家有认知到视频生成的价值吗?好像在舆论层面,如果某大语言模型做得很强,大家就会有很厉害的感知;但如果是视频生成做得强,好像大家感知不会很强。
王长虎:视频生成一定是被低估的。其实很多人的观点只是为了自己公司的生存发展,比如说做大语言模型的,要先得到大家的关注,然后估值蹭蹭上涨,融资也非常顺利。所以不管是公众还是创业者,还是投资人,都在关注大语言模型。当大语言模型先占据人的心智了,就会有很多共识。
但是你要知道创业不是这回事,我们应有独立的思考。
晚点:被低估会带来什么?
王长虎:大家对大语言模型的期待过高,会成为创业公司的压力和动力。我们没有这样的约束,会走得更健康。
晚点:你们有没有砸资源干一些可能会浪费的事情? 你刚才提到一个关键抉择是最开始确定视频生成方向。后面还有类似的抉择吗?
王长虎:另一个需要做决策的,就是 Sora 出来之后,我要不要花更多的资源甚至十倍资源去做第二代 DIT 架构模型?那时有声音说我们是不是已经落后 Sora 很多了?我们不像大公司能很快筹到那么多钱,三个月,一次能做成就做成了,做不成就再也没有第二次机会了,压力也很大。
晚点:你们当时觉得多大的概率会成功?
王长虎:概率不太能算出来。一方面我们创业初期规划路线时就有了第二代架构路线,而且当时就决定要在 2024 年春节后去做。另一方面,“成功” 怎么定义?Sora 虽然 demo 引起了轰动,但是十个月后上线,Sora 已经不在第一梯队了。只把代码写完很简单,但真正能让用户用起来而且喜欢,才是 “成功”。
晚点:你们面临这么多高压的情况,有没有哪次投入一段时间却没看到结果?
王长虎:我们没有那样的机会。做一遍做错了就可能发展不起来了。因为只要做就会花很多钱,我们不像 OpenAI 那样不差钱。
晚点:成立两年多,你们已经经历了行业发展的几个阶段,接下来会面对的是什么?
王长虎:早期是 Sora 出来之前,我们猥琐发育的阶段,那段时间我们快速把底层能力搭建起来了;第二阶段是 Sora 出来之后,好多团队都扑上来做,进入大乱战时期,现在又一些公司已经关停了、卖身,但我们杀出重围了;新的阶段是我们需要向一些真正有资源、有人才的大厂学习,和他们一起竞争。
题图来源:拍我 AI 网页端截图
相关推荐
“不会创业” 的创始人,怎么做出用户量第一的 AI 视频产品
a16z创始人:AI不会终结程序员
技术大牛如何找到靠谱的创业想法?
搞AI的,怎么才能不失业?
Cursor创始人万字访谈:全球爆火的AI编程应用是怎么炼成的?
AI创业现在需要的是哪一类人?
'印度版TikTok:创始人:永远不会接受中国的投资
如何打造一款月入110万美元的AI卡路里追踪应用
对话傅盛:AI时代的超级应用是什么?
抖音CEO卸任,打响字节“创业”第一枪
网址: “不会创业” 的创始人,怎么做出用户量第一的 AI 视频产品 http://www.xishuta.com/newsview137018.html
推荐科技快讯

- 1问界商标转让释放信号:赛力斯 95576
- 2报告:抖音海外版下载量突破1 24447
- 3人类唯一的出路:变成人工智能 23984
- 4人类唯一的出路: 变成人工智 23229
- 5移动办公如何高效?谷歌研究了 23108
- 6滴滴出行被投诉价格操纵,网约 10848
- 72023年起,银行存取款迎来 10619
- 8五一来了,大数据杀熟又想来, 9636
- 9网传比亚迪一员工泄露华为机密 8905
- 10“涉黄”擦边新闻不断,上门按 8656