捞偏门的路子都在哪里找的

你的位置:捞偏门的路子都在哪里找的 > 新闻动态 >

AI 教母李飞飞亲述创业历程: 没有空间智能的 AGI 是不完整的

发布日期:2025-07-05 21:48    点击次数:76

「AI 教母」、ImageNet 缔造者、斯坦福大学 HAI 联合创始人——李飞飞的身上从不缺少标签。

近期,在 YC AI 创业者学校的炉边谈话中,李飞飞系统性地阐述了她的新征程:当全世界的目光还聚焦在语言模型时,她已经将视线投向了 AI 的下一个前沿—— 空间智能 (Spatial Intelligence) 。

她的新公司, World Labs ,瞄准便是这个她认为是 「AI 领域当下最艰难的问题」 。

她认为,构建能够理解、生成和交互的 3D 世界模型,其难度和重要性可能远超语言。

「AGI 若没有空间智能,便是不完整的」李飞飞断言。

这场谈话不仅是对过去的复盘——从 ImageNet 的诞生到深度学习的爆发,更是对未来的预言。从二维图像到三维世界,从像素感知到空间理解,李飞飞正在试图为 AI 开启一扇通往物理世界的大门。

而与她同行的,是一支堪称「梦之队」的创始天团:NeRF 论文一作 Ben Mildenhall 、实时风格迁移与可微图形渲染大牛 Justin Johnson 、以及 Pulsar/Gaussian Splatting 的核心开创者 Christopher Lester 。

这究竟是一个怎样宏大的愿景?为什么李飞飞认为空间智能比语言更难?她又是如何从一位学者,再次转型为一位创业者?

梦的起点:ImageNet 与一场意外的胜利

故事要从 18 年前说起,那时李飞飞还是普林斯顿大学的一位青年助理教授。

AI 的世界与今天截然不同。「AI」这个词甚至不存在于公众话语中,计算机视觉算法举步维艰,几乎没有可用的数据,更遑论产业。

「但我们这群人,从 John McCarthy 到 Jeff Hinton,心中始终有一个 AI 梦,」飞飞回忆道,「我个人的梦想,就是让机器能够看见。」

在她看来,视觉是智能的基石,它不仅是感知,更是对世界的理解和互动。

然而,在不断尝试贝叶斯网络、支持向量机等算法后,一个问题始终困扰着她和她的团队: 泛化 (generalization) 。这是机器学习的核心目标,而实现泛化的前提是海量数据。

在那个年代,计算机视觉领域几乎是一片「数据荒漠」。

「我们必须做一个大胆的赌注,」飞飞说,「我们坚信,机器学习需要一场由数据驱动的范式转移。」

于是,一个近乎疯狂的想法诞生了:从互联网上下载十亿张图片,构建一个覆盖全世界视觉概念的庞大知识库,并以此为基准来训练和评测算法。

这个想法,就是后来点燃了深度学习革命的 ImageNet 。

但从 2009 年 ImageNet 以一张小小的 CVPR 会议海报形式问世,到 2012 年的那个历史性时刻,中间是长达三年的沉寂与坚持。团队坚信数据的力量,却迟迟看不到明确的信号。

为了推动整个领域的发展,他们做了两件关键的事:

完全开源 :从一开始就将 ImageNet 开放给全球研究者。

创办挑战赛 (ILSVRC) :邀请全世界最聪明的大脑来解决这个难题。

挑战赛的前两年,算法错误率徘徊在 30% 左右,性能虽有提升但远未到突破的程度。

转折点发生在 2012 年。

「我至今仍记得,那是一个夏末的深夜,」飞飞在她的书中写道,「我收到了我研究生的一条消息,他说‘我们收到了一个表现极其突出的结果,你必须看看’。」

这个结果来自 Jeff Hinton 的团队,当时他们提交的队名叫 「SuperVision」 ,一个巧妙的双关语,既指「超级视觉」,也指「监督学习」。他们使用的算法,是早在 80 年代就已发表的卷积神经网络 (CNN)。

「一开始我们很惊讶,一个旧算法居然能带来如此巨大的阶跃式变化。」

结果大家已经熟知。在意大利佛罗伦萨的 ImageNet 挑战赛研讨会上,Alex Krizhevsky 展示了他们的成果。AlexNet 以 15.3% 的错误率,将第二名远远甩在身后,宣告了一个新时代的来临。

飞飞特别强调:「这不仅仅是 CNN 的胜利。这也是 Alex 的团队首次将两块 GPU 拼接在一起用于深度学习计算。那是 数据、算法和算力 这三大支柱第一次完美地结合在一起。」

从物体识别到场景叙事:一个终身目标的「提前」实现

ImageNet 解决了「图片里有什么」的物体识别问题。但对李飞飞而言,这只是起点。

「从我读博开始,我就有一个我认为需要 100 年才能实现的梦想—— 对世界进行‘故事化’的描述 。」

她解释说,人类睁开眼,看到的不是一个个孤立的物体(人、椅子、屏幕),而是一个完整的场景:一间挤满了观众和摄像机的会议室。这种整体理解和描述场景的能力,是人类视觉智能的核心。

「我当时告诉自己,如果在我临终前,能创造一个算法讲出场景的故事,我的职业生涯就圆满了。」

然而,AI 的发展速度超出了所有人的想象。

AlexNet 之后,深度学习的浪潮席卷而来。她的学生,包括后来在 OpenAI 和特斯拉声名鹊起的 Andrej Karpathy ,开始探索视觉与自然语言的碰撞。

2015 年,飞飞和 Andrej 合作发表了一系列开创性论文,成功让计算机用一个完整的句子来描述图片内容 (Image Captioning)。

「我当时几乎感觉,我这辈子的目标达成了,接下来该干嘛呢?」飞飞笑着说,「那对我们来说是一个难以置信的时刻。」

她还回忆起一个有趣的插曲。在 Andrej 完成图像描述的博士论文后,飞飞曾跟他开玩笑:「Andrej,我们为什么不反过来试试?用一句话生成一张图片?」

Andrej 当时大笑着说:「哈哈,我可要毕业闪人了。」

在当时,这听起来像天方夜谭。但仅仅数年之后,生成式 AI 让这一切变为现实。

「我感觉自己是世界上最幸运的人,」飞飞感慨道,「我的整个职业生涯,恰好从 AI 的寒冬之末开始,见证并参与了这场波澜壮阔的技术变革。」

下一站,世界模型:为什么空间智能比语言更难?

即使已经实现了「终身目标」,李飞飞并未停下脚步。她将目光投向了更宏大的叙事:从二维的场景 (scenes) 到三维的 世界 (world) 。

这也促使她做出了从斯坦福终身教授到创业公司 CEO 的转变,创立了 World Labs 。

「是什么激励我再次大胆思考 AI 的未来?我的很多灵感来自于进化和脑科学。」飞飞分享了她独特的思考框架。

她提出了一个惊人的对比:

人类语言的进化 ,乐观估计,花费了大约 30 万到 50 万年。语言作为一种沟通、推理和抽象的工具,在很大程度上是人类独有的。

视觉与空间智能的进化 ,即理解、导航、交互和认知 3D 世界的能力,这条路演化走了整整 5.4 亿年 。

「5.4 亿年前,第一只三叶虫在水下拥有了视觉。从那一刻起,一场演化的军备竞赛开始了。视觉能力直接点燃了动物智能的爆发式增长。」

这个长达数亿年的进化历程,让飞飞坚信: 解决空间智能问题,是 AI 的核心任务之一。

「AGI 若没有空间智能便是不完整的。我想解决这个问题。这需要我们构建超越扁平像素、超越语言的 世界模型 (World Models) ,一个真正能捕捉世界 3D 结构和空间智能的模型。」

然而,这条路注定充满荆棘。飞飞直言,空间智能甚至可能比语言模型更难。她从几个维度解释了其中的挑战:

维度诅咒 :语言本质上是一维的序列数据 (1D)。而真实世界是三维空间 (3D),加上时间就是四维 (4D)。这在组合上是指数级困难的问题。

投影难题 :无论是人眼视网膜还是相机传感器,感知视觉世界的方式都是将 3D 信息 投影 到 2D 平面。这是一个数学上的「病态问题」(ill-posed problem),从 2D 重建 3D 存在固有的信息损失和不确定性。

生成与重建的二元性 :语言是纯粹的生成信号,它源于人类大脑,自然界中并不存在实体。而「世界」则复杂得多。它既可以被 生成 (如游戏、元宇宙),也需要被 重建 (如机器人、自动驾驶)。世界模型必须在这两者之间灵活切换,而这背后对应着截然不同的用户行为和应用场景。

数据鸿沟 :互联网为语言模型提供了海量的文本数据。但高质量、大规模、多样化的 3D/4D 空间数据却极其稀缺。「它们存在于我们的头脑中,但不像语言那样唾手可得。」

「这正是我兴奋的原因,」飞飞说,「如果它很简单,早就有人解决了。我的整个职业生涯都在追逐那些近乎‘妄想’的难题。」

面对如此艰巨的挑战,李飞飞组建了一支世界顶级的团队。

联合创始人 Justin Johnson 曾是她的学生,以其卓越的系统工程能力实现了实时神经网络风格迁移; Ben Mildenhall 是开创性工作 NeRF (神经辐射场) 的第一作者,彻底改变了 3D 场景表示的方式; Christopher Lester 则是 Pulsar 和 Gaussian Splatting 的核心贡献者,为可微渲染和实时 3D 渲染铺平了道路。

「我只信赖一件事:让这个世界上最聪明的一群人来解决像素世界的问题。」

从洗衣店到 AI 殿堂:一个创业者的内核

对于熟悉李飞飞学术生涯的人来说,这次转型或许显得突然。但回顾她的整个人生,这种「从 0 到 1」的经历早已不是第一次。

16 岁随父母移民美国,一句英文都不会;19 岁时,为了支撑家庭和支付自己在普林斯顿大学的学费,她和父母一起开了一家干洗店。

这种无畏和坚韧贯穿了她的职业生涯。作为年轻教授,她数次选择加入那些还没有计算机视觉方向的院系,在没有资深导师指导的情况下,硬是开辟出一条路。之后,她加入 Google,深入了解企业级业务;再后来,她回到斯坦福,从零开始创办了 以人为本人工智能研究院 (HAI) ,并像运营一家创业公司一样,将其发展成全球AI治理和研究的灯塔。

「我热爱创业的感觉,热爱站在‘归零地’。忘记你过去的成就,忘记别人对你的看法,只是埋头构建。这才是我的舒适区。」

在谈到如何培养和识别顶尖人才时——她的学生中走出了 Andrej Karpathy、Jia Deng、Jim Fan 等一众 AI 领域的领军人物——李飞飞给出了她的标准:

「我寻找的是智识上的无畏 (intellectual fearlessness)。」

她解释说,这是一种拥抱困难、全身心投入、不计代价去解决问题的勇气和决心。「这是我从我的学生身上学到的,也是我们 World Labs 招聘时最看重的品质。」

是的,World Labs 正在大规模招聘,涵盖工程、产品、3D 和生成模型等各类人才。

关于未来:AGI、开源与下一代 AI 人才

在最后的 QA 环节,李飞飞也分享了她对几个热点问题的看法。

关于 AGI :她对当下业界热衷于区分 AI 和 AGI 的做法持保留态度。「AI 的奠基者们从 1956 年达特茅斯会议开始,目标就是创造‘能够思考的机器’,这本身就是通用智能的愿景。」她认为,与其纠结于一个模糊的定义,不如承认 AI 作为一个领域正在不断进步。她也坦言,大脑本身就是模块化的(视觉皮层、语言区等),因此未来的 AGI 很可能不是一个单一的庞然大物。

关于开源 :李飞飞的态度非常务实和开放。「一个健康的生态系统应该允许多种模式并存。」她认为,公司选择开源还是闭源,取决于其商业战略。例如 Meta 开源是为了构建生态,而以模型本身为核心产品的公司则可能选择闭源或分层开源。「但在宏观层面,开源的努力必须被保护。它对创业生态和公共部门都至关重要。」

给博士生的建议 :在工业界算力和数据资源远超学术界的今天,她建议博士生寻找那些无法仅靠资源堆砌解决的「北极星问题」。例如, AI for Science 、 AI 理论 (可解释性、因果)、 小数据学习 等,这些领域依然有大量基础性问题等待突破。

关于身份与挑战 :当被问及作为少数族裔女性在科技界面临的挑战时,她的回答充满了力量与智慧。「我早已习惯了我的身份。我来到这里,和你们每个人一样,是为了学习、创造和做事。」她的建议是,不要过度解读身份带来的困境,而是专注于行动本身。

「专注于去做,」她用一个极客的比喻总结道, 「用梯度下降法,将你自己优化到那个最佳解。」

从 ImageNet 的数据信仰,到空间智能的宏大叙事,李飞飞的每一步都踏在了 AI 演进的关键节点上。当语言模型的热潮逐渐将 AI 带入千家万户,她已经再次启程,走向一片更广阔、更复杂、也更接近真实世界的无人区。

这条通往「世界模型」的道路,无疑将漫长而艰难,但正如她所说,这正是最激动人心的地方。一个由空间智能驱动的 AI 新纪元,或许正在悄然拉开序幕。