2014年图灵奖得主Mike Stonebraker近日在meta资深工程师Ryan Peterman的播客中分享了他对数据库领域及人工智能的独到见解。Stonebraker是数据库系统领域的先驱,其贡献几乎被所有相关教科书收录。从Ingres、Postgres到Vertica、VoltDB,再到最新的DBOS,他开发的系统在商业领域取得了巨大成功。
在对话中,Stonebraker直言不讳地批评了一些科技巨头。他称Oracle创始人Larry Ellison“混淆现在时和将来时,本质上是在欺骗客户”,并指出Google当年推广的MapReduce和最终一致性“愚蠢至极”。对于亚马逊同时维护十五个数据库系统的做法,他认为“多了十二个”,并建议应精简至三个以提高效率。
Stonebraker认为,当前多数智能体AI仍处于“只读”阶段,例如为客户评分或生成预测,但并未真正修改数据库内容。一旦智能体开始读写操作,如两个智能体协作完成转账,问题将回归到数据库的核心领域:事务、一致性和原子性。他指出,在大模型写SQL方面,尽管在公开基准测试中表现优异,但在真实生产环境中表现不佳。例如,在新的基准测试Beaver上,大模型的准确率为0%,即使加入RAG技术也仅达到10%。相比之下,熟悉数据结构的SQL工程师准确率可达90%以上。
Stonebraker还分享了他对年轻人职业选择的看法。他表示,如今已不确定是否推荐十八岁的年轻人主修计算机科学,认为医疗和建筑行业可能是更稳妥的选择。对于数据库领域的未来,他强调了专用数据库的重要性,认为一种数据库无法解决所有问题,并指出GPU在数据库优化中的潜力有限,因为GPU的SIMD架构与索引操作不兼容。
在谈到自己的创业经历时,Stonebraker表示更喜欢学术界的自由,认为在大公司工作会受到规章制度的限制。他介绍了DBOS项目的起源,该项目旨在用数据库技术替代操作系统的部分功能,提高调度效率。尽管最初设想是替换整个操作系统内核,但实际产品更专注于支持工作流系统,提供持久性和事务性保证。
对于数据库领域未解决的问题,Stonebraker认为,让大语言模型理解真实世界的数据仓库是一个重大挑战。他指出,真实数据仓库中的数据复杂度高,schema混乱,大语言模型难以处理。他建议将所有数据转换为表格形式,并使用查询优化器进行连接操作。他认为随着智能体AI从只读操作转向读写操作,分布式数据库的需求将增加,原子性和一致性将成为关键问题。
在谈到对数据库学习者的建议时,Stonebraker推荐阅读文献中的经典论文,并提到他与Joe Hellerstein合著的《Readings in Database Systems》一书。对于年轻时的自己,他建议“跳出框架,想些疯狂的事,去做”。对于即将获得博士学位的人,他建议选择最有声望的工作,找一个愿意帮助的导师,并选择一个不随大流的研究方向。


