专访|向量数据库Zilliz创始人星爵:非共识到共识的创业之路
·“中国企业如果要在未来的几十年里实现更大的发展,SaaS类企业服务的崛起是必然的。如果企业服务无法崛起,中国难以参与全球顶尖的竞争。”
·“如果外部环境变化就能让你改变方向,那并不是真正的相信自己。改变方向只会让你失去自我。”
“即便在两三年前我们已经融到了1.1亿美元,拿到了顶级投资人的钱,是中国基础软件领域融资最多的公司之一,但那时候市场上几乎没有人相信我们。”2017年,在数据领域工作了15年后,星爵观察到了一个现象:大量的非结构化数据一直未被有效地处理和利用,传统数据库如Oracle等公司通常处理的是结构化数据。于是,他决定从硅谷回到中国创业,成立了向量数据库公司“Zilliz”。不过那时OpenAI也刚刚创立两年,距离大模型掀起新一轮人工智能热潮还需要再等五六年,市场上几乎没有人相信他们,“(创业)前五六年,向量数据库基本上属于聪明人看不上也不愿意做的事。”日前,在接受澎湃科技采访时,星爵回忆说。
向量数据库公司Zilliz创始人谢超,星爵为其花名。
直到2023年,创业之路迎来了一个重要的拐点,ChatGPT将大模型推上了人工智能的主流。“和以往的模型相比,大模型对数据的依赖程度更高,它完全是由数据驱动的,数据变得更加重要。”
七年时间,向量数据库作为AI的基础设施,从幕后走到了幕前,非共识成为了共识。“过去一年多,很多公司都在进入向量数据库这个领域,甚至一度有两三百家数据库厂商将自己定位为向量数据库公司,有些人两三个月前还不相信的东西,突然特别相信了。”星爵说。
科技的发展速度超过了很多人的想象,但始终坚定并非易事。从市场幽微时刻出发,一路行至光明时刻,在星爵看来是一种极富英雄主义的坚持。在Zilliz成立伊始便定了一个规矩,新成员加入时要选一个英雄的名字作为自己的花名,本名谢超的他选了漫威宇宙银河护卫队中的英雄“星爵”。
大模型只是应用场景之一
在过去多年的互联网发展过程中,结构化数据的处理占据了主流。所谓结构化数据指的是一种使用预定义和预期格式的数据,其字段、存储、输入、查询、分析等相对固定,典型代表如电商场景中的交易数据,其金额、购买信息等都会有严格的字段定义。
而非结构化数据则恰恰相反,它的结构不规则或不完整,没有预定义的数据模型,很难用数据库二维逻辑表来表示的数据,常见的包括语音、视频、图片、文本等。大家通常认为,这类非结构化数据比结构化数据量大很多,占到所有数据总量的80%,但却很难被处理或分析。
相较于市场上已经发展了二三十年的结构化数据处理工具,非结构化数据处理的工具并不完善,往往需要投入很大的算力和存储资源,譬如要在上百部电影中找到特定画面,检索过程非常复杂且庞大。因为成本过高,导致很多非结构化数据的价值没有被充分挖掘。
“进入人工智能时代后,机器可以代替人来处理这些非结构化数据,如果能够有效利用这些数据,将是一个巨大的机会。”Zilliz主打向量数据库,一种专门为AI打造的处理非结构化数据的存储系统,用于处理非结构化数据的软件工具。复杂的非结构化数据一般需要通过AI模型转化成向量,然后存储到向量数据库中进行分析,才能进一步挖掘蕴含的价值。
“事实上,大语言模型只是向量数据库的一个应用场景,并不是唯一的应用。从2018年开始到2022年,中国的主流科技公司几乎都在使用我们的产品,尤其是在互联网搜索和广告领域,虽然看起来没有那么酷,但它们仍是我们产品的重要应用场景。”星爵说。
比如用户在电商场景中搜索面包,如果仅以关键词维度进行搜索,那么吐司、贝果、欧包等面包的细分品类,就可能被忽略。但在语义和向量维度,它们之间具有极高的相似度,以向量为依据进行搜索更符合现实场景中的用户需求。
向量数据库需要考虑如何将历史海量数据做好向量化,如何构建索引、过程中如何做存储,如何兼顾语义查询和精准查询。经过五年的打磨,Zilliz旗下开源产品Milvus已经成为全球最受欢迎的开源向量数据库之一,基于Milvus的全托管向量数据库云服务Zilliz Cloud也于2022年11月正式发布商用版本,并先后实现全球五大云19个节点的全覆盖,成为全球首个提供海内外多云服务的向量数据库企业。在不久前发布的全球知名研究公司Forrester Wave™ 向量数据库报告中,Zilliz获评领导者象限最高分,在向量维度、向量索引、性能、可扩展性等多个角度得到专业认可。
但在星爵看来这只是个开始,算力、算法和数据是人工智能的三大技术支柱,“如果说算力是火箭的机体,那么算法是控制系统,数据是燃料,虽然每一轮计算机技术的革命都是从硬件开始,然后是算法的进步,但数据才是最核心、最有价值的资源。”大模型为数据提供了一个很好的载体,同样在大模型时代,数据也变得更加重要。
“AI在不同的发展阶段有不同的表现方式,比如五六年前,AI的表现可能是传统的小型卷积神经网络模型。随后,Transformer的出现,再加上scalinglaw等产业规律的存在,有了大模型。除了语言模型,也有视觉模型或其他类型的模型,并逐渐发展成为统一的多模态模型,既可以处理语言文字,也可以处理视频、音频。”
真正的“高光时刻”还未到来
大模型的走红带火了向量数据库,但星爵认为,向量数据库真正的“高光时刻”还未到来。
当前AI领域的发展还没有到真正的爆发阶段。“过去6到8个月中,AI领域正处于爬坡阶段,虽然整体效能有所提升,但尚未达到理想水平。在技术层面,大模型依然面临瓶颈,这一瓶颈可能持续三个月、三年或更长,具体时间难以预测。”
大家都在寻找理想的应用载体,以便将AI与其他技术结合,创造更大的效益。星爵认为,当前AI的发展仍在寻找价值、创造新机遇,市场层面需要找到新的价值点。很多公司对AI的认知不够。“他们常常寻求帮助,却不清楚自己想解决的问题到底是什么,有些找到我们的客户甚至还不了解行业是如何细分的,什么样的问题该找哪类供应商。”
不过,他对中国AI市场的未来发展仍然乐观,“虽然在中国市场,我们经历了很多挑战,但我们依然不愿意放弃这个市场。在AI应用层面,中国并不会落后,中国公司在应用反应速度和执行力上具备优势。在上一代移动革命时期,中国公司在应用方面表现出色。”星爵认为,这一出色的表现仍然会延续至AI时代。
虽然SaaS服务在中国市场一直面临营收难题,但在星爵看来,中国企业如果要在未来的几十年里实现更大的发展,SaaS类企业服务的崛起是必然的。“如果企业服务无法崛起,中国难以参与全球顶尖的竞争。”
“真正的高光时刻应该是当出现第一家营收超过10亿美元、估值达到100亿美元的公司。”而创造个高光时刻的公司可能会是类似Zilliz这样的独立创新公司。
伟大的机会往往都是反共识的
向量数据库火出圈后,经常有人问星爵,“为什么是你们跑出来了?做对了什么?”
“伟大的机会往往是反共识的”。当大多数人都不看好一个方向时,正是创业者坚持信念的时刻。星爵表示,最初选择创业是出于自己从事数据工作多年后的技术直觉,“我在数据领域工作了很长时间,知道当下市场的需求已经可以通过技术的手段去满足。如果不是长期从事数据库工作的人,可能无法说服自己相信这项技术已经到了拐点。”
在创业之前,星爵已在数据领域工作近十五年,处理非结构化数据一直是工作中棘手的难题。但深度学习技术的出现让他意识到这是一个重要的技术变量,使得非结构数据的处理问题变得可以解决。
“相信自己”被星爵认为是一个创业者必须具备的第一要素。“很多人不敢行动,首先是害怕失败,其次是不相信自己,相信自己是一件非常困难的事情,需要对自己的判断和直觉有高度的信任。”在大模型带火了向量数据库后,很多从事传统数据库的人开始转变思路,从不相信到相信,但在星爵看来,“如果外部环境变化就能让你改变方向,那并不是真正的相信自己。改变方向只会让你失去自我。”
虽然坚信终点一定可以抵达,但何时可以抵达并不确定。在创业过程中,星爵也曾遭遇融资困难熬不下去的时候,所以他觉得理想主义对于创业者来说也不可或缺,“如果想要更快地发展可能需要追求短期利益,但只有具备理想和长期愿景,才能更早地进入一个市场,并坚守这一领域。只有坚持和熬过困难,才能取得成功,好的机会往往是反共识的。”Zilliz今天能够在细分领域里获得领先,在星爵看来,完全得益于“起步更早,吸引了更多优秀的人才”,“如果我们进入市场的时间晚了,就根本没有机会了。”