首页科技快讯 “不会创业” 的创始人，怎么做出用户量第一的 AI 视频产品

“不会创业” 的创始人，怎么做出用户量第一的 AI 视频产品

来源：晰数塔互联网快讯时间：2025年06月06日 19:29

解锁 AI 视频的病毒传播后，爱诗推出 PixVerse 中国版 “拍我 AI”。

文丨王与桐

编辑丨程曼祺

“不够年轻。”2023 年初，我们第一次和投资人聊到正在筹备创业的王长虎时，这是对方的第一反应。

一种观点是，35 岁以下的创始人更适合大模型创业，不管是做模型还是应用——模型技术迭代快，年轻人学得更快；而做应用要洞察用户，AI 的早鸟用户就是年轻人。

可偏偏，在数家视频生成创业公司被收购或关停时，是 80 后的王长虎，搭配联创 90 后谢旭璋，带着既做模型，也做应用的爱诗科技跑到了行业头部。

爱诗的全球用户现在已超过 6000 万，是可灵当前用户数的近 3 倍；其中，上线刚 6 个多月的 PixVerse 移动端月活已超过 1600 万。

可灵、MiniMax 海螺、Pika、Runway 等产品主要服务专业视频制作者，爱诗则在有相近功能的网页端产品之外，也做了面向 to C 用户的视频生成移动端产品，玩法又潮、又简单：

借助 “模版”，用户上传照片、等上几秒后，就可以把任何人物封装成一个小玩具，平地入海、变身美人鱼，让自家的猫跳科目三或体验一次绿巨人变身，然后再一键分享这些视频到 TikTok、Instagram 等平台。“很多用户的第一个万赞、十万赞、乃至百万赞的短视频，就是用 PixVerse 做的。” 谢旭璋说。

上个月，一款咧嘴笑模版将 PixVerse 推上美国 iOS 下载榜前五。去年底爆火的由 PixVerse 制作的超级英雄变身视频，目前全网播放量已超 10 亿次。

今天（6 月 6 日），PixVerse 的国内版 “拍我 AI” 正式上线，更多中国用户也能简单、快速地体验 AI 视频制作。

爱诗两位创始人过去都没有完整操盘过 to C 产品：王长虎是中科大博士，有近 20 年 AI 研究经历，2017-2021 年间，他担任字节跳动视觉技术负责人，在抖音从 0 到 1 增长最快的时期提供技术支持。谢旭璋则毕业于北大光华管理学院，创业前的 6 年一直在光源资本工作。

爱诗的阶段性成绩，直观原因，是他们试到了新的产品形态，并找到了病毒式传播的爆发点；而背后的基础，又来自自研视频模型的性能，效果要好、速度要快。

越是 C 端用户，越不能忍受频繁的抽卡和生成时等太久。2024 年 10 月，PixVerse 发布 V3，大幅减少 “抽卡” 频率；两个月后，V3.5 又将生成时间压缩到 10 秒以内，满足了 C 端用户的基本要求。成立至今，PixVerse 已总共更新了 7 版模型。

爱诗方面称，现在他们的订阅收入已能覆盖公司绝大部分成本费用，现金流接近为正。

“我不会创业” 王长虎说，但没关系，“创业就是边做边学”。

10 亿次播放的 AI 变身特效，PixVerse 的 “病毒传播”

晚点：为什么现在这个时间点进国内市场，做中国版？

谢旭璋：我们本身就想做全球产品，中国是其中非常大的市场，早期我们人人太少顾不过来，现在我们产品开发、模型迭代都走上正轨了。

同时，AI 视频的场景已经被探索过了，像去年我们在做毒液变身时，中国应该有小几百万人来用过这个特效，在全球各种社交媒体上，变身特效视频被播放超过 10 亿次，比看过原电影的人要多。我记得有当时有很多人在闲鱼上发帖，花钱找人代做视频，所以我觉得中国用户的付费意愿或者使用意愿和海外是相近的。

晚点：类似变身等模版，现在是 PixVerse 和 “拍我 AI” App 上的核心玩法，不需要写 Prompt，对普通人非常友好。而且你们刚上了信息流功能，用户可以直接在平台上分享生成的视频。从模型到具体的产品形态，决策是怎么发生的？

王长虎：我在创业时就有目标要服务普通人，愿景是 “帮助每个人成为生活的导演”。

产品形态是逐渐清晰的。两年前大家不相信视频生成是因为技术不好；一年前只有专业创作者才能忍受很慢的生成等待时间。所以我们一直在过程中提升模型能力，每两个月就有大的提升。

在去年 10 月，我们的产品在海外破圈了，是因为我们的 V3 模型能把过往极低的抽卡概率拉到接近 100%。这样我们用最好的模型，搭配产品推出了模版生成功能，二者结合，普通人不需要输入 Prompt，只需要上传一张图片，选好模版就能达到 100% 的成功率，这是真的让普通人玩起来的时刻，我们认为这是视频生成的 ChatGPT 时刻。

两个月后，模型 V3.5 又把用户等待时长从分钟级降低到了 10 秒内，所以我们决定让 App 上线。做到一定标准，用户才会选择你。这是结果，不是原因。

晚点：所以你们去年曾说，爱诗的目标客群就是每天玩抖音、TikTok 的普通人？

谢旭璋：对，所有能看视频的人可能都有用视频表达的欲望，只是过去表达欲没被满足。我们希望用 AI 帮助这些人迈出第一步，让他们先做出来第一个好玩的、跟自己有关的、可以分享的视频。很多用户的第一个万赞、10 万赞、乃至百万赞短视频，就是用 PixVerse 做的。

晚点：选择 to C 方向，也意味着可能与大厂有更直接的竞争。比如即梦也是一个有视频生成功能的 to C 产品；而抖音、快手也一直都有特效、模版的玩法。你们作为新公司，跑出来的机会是什么？

谢旭璋：首先是我们产品背后的基础是自己的视频模型，我对我们模型迭代比较有信心。再就是视频行业不管在国内还是海外，是一个还在发展，还在快速变大的一个行业：优酷、爱奇艺、NetFlix 没有被抖音、快手、TikTok 取代，电视台、电影院也没有被优酷、爱奇艺、NetFlix 等取代，现在还有了直播、短剧等形式。同样的，新的视频平台都不是老的视频平台们做出来的。

随着视频行业的发展，需要更大的内容供给，这是很大的增量，不存在说大公司把所有机会都干掉了。

晚点：你们的视频生成模版和短视频软件上的特效功能有什么区别？他们也能做出很逼真的视频。

王长虎：这就像 ChatGPT 之前也有微软小冰，可以对话但是效果不一样。

短视频里的特效不是端到端的，每一个特效都要针对性去调整、设计；而用生成技术产生模版，效率高很多，同时能让用户也参与贡献模版，不是光靠我们的团队在做。这是过去的短视频特效没有的生产机制——所以我们的模版内容多元、足够有差异化。

晚点：拿 “毒液” 变身模版为例，门槛或者说壁垒在什么地方？今天我是另外一家想做“毒液”变身视频模板的公司，我也可以 copy？

谢旭璋：我觉得几个点可以参考。“毒液” 变身已经火了半年了，到目前为止应该没有哪家的模型能完全复现这个效果，所以本身这个技术有难度，需要高质量的生成模型，才能让变身过程和结果都符合预期，另外还需要做一些微调。

再就是需要用户洞察，变身火了可能几周到一个月，但之后我们也能持续做出让用户喜欢的模版。

晚点：一直有 “火” 的模板？怎么做到的？这真能持续吗？

谢旭璋：我们内部会不停有创意出来，未来也希望让用户能贡献创意。但比较重要的是基础模型，基础模型不好，很多创意是没有办法实现的。

晚点：我在你们的产品界面里看到很多英语、俄语、泰语的视频。实际上对你们来说，哪个市场是你们占比比较大的？

谢旭璋：视频是一个更通用的传播媒介。所以一个好玩的模板和效果，在美国能火，中国能火，在巴西也能火，在泰国也能火，在欧洲也能火。具体到收入占比，GDP 高的国家就会相对占比更大。

晚点：你们提前计划了主攻哪些海外市场？还是看哪个市场先跑出来？

谢旭璋：我们现在还没有那么精细化，是让产品自己跑出来。

模型技术的进化，将模糊内容创作和消费的界限

晚点：你们觉得在全球范围内，视频生成行业里面公认的第一梯队的模型来自哪几家公司？

谢旭璋：模型方面，我认为海外的 Google 做得好，国内是我们、快手可灵和 MiniMax 海螺。视频生成领域里，用户量最大的三个公司就是这 3 家中国公司。

晚点：你刚刚没提 OpenAI，Sora 已经不算第一梯队了吗？

谢旭璋：对，我们觉得 Sora 最后发布的这个模型跟当时 demo 差距非常大，开玩笑说，前后差了十个 PixVerse。它其实开了一个不太好的头，导致那之后很多公司会发 demo 称做到了什么，但实际交付不了。

晚点：你们会担心接下来会有一个特别强的开源模型，别的应用公司可以在这个开源模型上达到和爱诗相似的效果吗？

王长虎：现在也有很强的开源模型，比如阿里通义万相的视频大模型。但对做好应用，开源不是最重要的，DeepSeek 牛，不仅牛在开源，而在于他模型确实好。ChatGPT 刚出来时，也冒出了好多应用。但随着模型进化，很多应用自然就被颠覆了。

晚点：所以你觉得自己掌握模型能力非常重要。

王长虎：对，特别是在不是成熟的，还在进化中的阶段。

晚点：视频生成领域也在出现一些新的技术趋势，比如从 DiT 架构（Diffusion Transformer，结合扩散模型和 Transformer 架构的生成模型）到有人推出了自回归技术（Autoregressive model，可逐步生成序列）的视频生成模型。你怎么看这个方向的潜力？

王长虎：我过去 20 年都在做研究，研究界的好多论文，你都可以说是新趋势。要辩分辨哪些是在讲故事，哪些是真正有效。

自回归一方面不是一个新东西，之前不少公司也探索了很久，至少到目前为止，最主流、效果也最好的模型仍是 DiT；另一方面，自回归是一个有希望的方向，GPT-4o 在图片生成上，很可能就是用了自回归加 Diffusion 的架构。

晚点：OpenAI 接下来是否会把自回归也用到视频生成上？如果他们真这么做，有可能带来断层的体验领先吗？

王长虎：最重要的还是看结果。DiT 架构视频内容是一次生成，自回归是顺序生成。不同的方法各有优劣。4o 确实引发了大家的探索，自回归的劣势在视频生成里会放大，因为逐帧生成会有累积误差，能不能用 Diffusion 技术弥补？最近还有一个趋势，就是推进实时视频生成的发展。

晚点：指生成的时间跟视频长度相等，或者说更快一点？

王长虎：有两个里程碑。一是我们在模型 V4 时就能做到用 5-7 秒生成 5 秒长的视频，并且我们是在不损失质量的情况下做到。这样人在观看视频时，视频也在同时生成下一秒，就可以无限生成下去。

二就是前面的那 5 秒，能不能实时生成？这是更难的，但也更有价值，会开启更大的世界。

晚点：这可能会带来应用上的变化？后面的内容在前面观看时还没有生成，相当于能做一些定制化的内容，或者有交互。

王长虎：过去这两年我看到视频的创作和消费的界限越来越模糊了。未来能够做到每个消费者都能具备创作能力；并且每个看视频的人都可以去跟视频实时交互，改变内容，比如我对泰坦尼克号的结局不满意，我就可以让视频的走向改变。

晚点：可能我们看视频时，并不希望所有内容都是我想出来的，这样我也会很累，而且有时也需要内容给我们 “意外”。

王长虎：这事对创作本身也有影响，因为不同的交互导致不同的剧情走向，视频本身就能知道不同的群体喜欢的是什么，就能自我进化，做出更好的视频。

因此还会带来的一个改变可能是，视频和游戏的界限越来越模糊。

晚点：你们模型为什么能做到比别人快？

王长虎：综合优势，模型架构、算法、工程、产品能力。外界解读时会希望能找到一些简单的结论，但这件事其实是非常难的。去年一些比我们融资更多的大模型公司不缺钱，不缺人，不缺数据，但其中多数公司依然做不出来（视频生成模型），说明这件事很难。

晚点：综合能力不只有模型，那现在模型和产品在爱诗的成长中各自扮演的角色是什么？

王长虎：这是两个引擎。发展前期，模型一定是更重要的，一旦模型做不好，会影响用户的产品体验；当模型能做到全球最好，并且能持续进化时，产品的比重越来越大；产品能看到用户真需求，就会牵引技术的发展。

晚点：大厂也不缺资源，为什么你们能比大厂做得快？有观点认为，团队小，目标简单。

王长虎：这就是创业公司的优势所在，没那么复杂，所以效率高。大公司的业务，没人管可能能跑出来；业务被重视了、升级了，就不知道是好事还是坏事了。

视频生成被低估，是压力也是好处

晚点：创业两年多，你有哪些成长？

王长虎：这两年一直在成长。前段时间我还分享，其实我不会创业，创业其实是要边做边学。公司在发展过程中要做很多决策，这些决策、这个公司的发展跟创始人息息相关。所以这个过程中我们在很多高压的情况下做了抉择。

晚点：你们在哪些 “高压” 情况下做了抉择？

王长虎：创业公司是持续有压力的，我们是在做一个大模型，很花资源。有一些时刻是一旦做错了你就没有机会。因为要烧很多钱的，一旦做错了就可能没有机会再做第二次。

比如说 2023 年初我们要不要做视频？那时候很多人都不认同这件事情，大家都在看大语言模型。

晚点：2023 年初您刚创业时我们聊过，您当时还没有提到要做视频里的视频生成这个方向。

王长虎：边做边学，那时目标还是 AI 生成，至于做图片、做视频、做大模型？还在思考过程中。

晚点：后来怎么定位到现在的视频生成方向？看到了哪些迹象？

王长虎：2023 年 6 月时，我们资源到位，核心人员到了之后，我们真的需要做事情的时候，那时候就明确的看到了这个方向，决心 All in 视频生成。

当时看到大语言模型蒸蒸日上，也有人在做图片生成、3D 生成，但唯独没有人做视频生成。大家的反馈是觉得太难了。但我觉得这样是不对的，这就有了非共识：我们觉得视频生成是大事，而我们过去在视频和 AI 方面有经验，能赢在全球。

晚点：视频生成价值被认可是 2024 年 2 月 Sora 出现之后，这之前是非共识。你觉得到现在，大家有认知到视频生成的价值吗？好像在舆论层面，如果某大语言模型做得很强，大家就会有很厉害的感知；但如果是视频生成做得强，好像大家感知不会很强。

王长虎：视频生成一定是被低估的。其实很多人的观点只是为了自己公司的生存发展，比如说做大语言模型的，要先得到大家的关注，然后估值蹭蹭上涨，融资也非常顺利。所以不管是公众还是创业者，还是投资人，都在关注大语言模型。当大语言模型先占据人的心智了，就会有很多共识。

但是你要知道创业不是这回事，我们应有独立的思考。

晚点：被低估会带来什么？

王长虎：大家对大语言模型的期待过高，会成为创业公司的压力和动力。我们没有这样的约束，会走得更健康。

晚点：你们有没有砸资源干一些可能会浪费的事情？你刚才提到一个关键抉择是最开始确定视频生成方向。后面还有类似的抉择吗？

王长虎：另一个需要做决策的，就是 Sora 出来之后，我要不要花更多的资源甚至十倍资源去做第二代 DIT 架构模型？那时有声音说我们是不是已经落后 Sora 很多了？我们不像大公司能很快筹到那么多钱，三个月，一次能做成就做成了，做不成就再也没有第二次机会了，压力也很大。

晚点：你们当时觉得多大的概率会成功？

王长虎：概率不太能算出来。一方面我们创业初期规划路线时就有了第二代架构路线，而且当时就决定要在 2024 年春节后去做。另一方面，“成功” 怎么定义？Sora 虽然 demo 引起了轰动，但是十个月后上线，Sora 已经不在第一梯队了。只把代码写完很简单，但真正能让用户用起来而且喜欢，才是 “成功”。

晚点：你们面临这么多高压的情况，有没有哪次投入一段时间却没看到结果？

王长虎：我们没有那样的机会。做一遍做错了就可能发展不起来了。因为只要做就会花很多钱，我们不像 OpenAI 那样不差钱。

晚点：成立两年多，你们已经经历了行业发展的几个阶段，接下来会面对的是什么？

王长虎：早期是 Sora 出来之前，我们猥琐发育的阶段，那段时间我们快速把底层能力搭建起来了；第二阶段是 Sora 出来之后，好多团队都扑上来做，进入大乱战时期，现在又一些公司已经关停了、卖身，但我们杀出重围了；新的阶段是我们需要向一些真正有资源、有人才的大厂学习，和他们一起竞争。

题图来源：拍我 AI 网页端截图