去年年初,Jordan Tigani发表了一个演讲《Big data is dead》,这个演讲引发了不少争论。如果是别人谈这件事,可能很多人会不以为然,不过了解Jordan Tigani的履历的人可能就得在脑子里多转几个弯了。
图片
这哥们可不是一般人,曾经是谷歌BigQuery项目的第一批程序员,写过几本大数据的书,又是利用DuckDB开展大数据云服务的服务商的联合创始人。妥妥的根正苗红的大数据前辈,连这种浓眉大眼的人都叛变了,难道大数据真的快死翘翘了吗?
对于大数据方面的观点,我一直是有些滞后于主流观点的。当大家认为大数据会颠覆关系型数据库的时候,我十分固执的认为这件事不会发生。当然涉及到自己的饭碗,固执己见是必然的。而当现在很多人在唱衰大数据的时候,我依然不以为然。因为大数据无需唱衰,大数据已经融入了社会生活。当我们跳入水里的时候会有所感知,但是我们会感知我们走入了空气中吗?不会,因为我们一直存在与空气中。大数据也是如此,当我们融入大数据的时候,大数据的关注度就降低了,我们无需感知它的存在了。
当我们每天开车上班的时候,大数据在为我们选择最佳的出行方式与行车路径;当我们在地铁上遗失了贵重物品的时候,大数据帮我们很快追踪到失物的踪迹;大数据会让气象预报以小时为单位发布,并且能够比较准确的预测到15天甚至更远的大致情况;大数据能帮助税务部门发现某些人在十年前的税务违规,能够帮助海关发现潜在的走私行为;而当我们打开抖音的时候,总是能刷到自己喜欢类型的小姐姐。这一切的背后都是大数据和大数据处理。大数据不是死了,而是进化了,进化得让我们不需要感知到它的存在了,因为它的幽灵已经无处不在了。
不谈大数据到底是不是已经成为了我们的空气,单单就Jordan的那个演讲来看,似乎观点也不大靠谱,这篇演讲稿里充满了浓厚的商业气息,妥妥的是作为一个CPO(首席产品官)而不是一个CTO在演讲。离开了谷歌BigQuery后,从事的业务变了,立场也就变了。其中的一些主要观点都存在一些偏颇的地方。
图片
去年3月份,在Jordan发表演讲后不久,加州伯克利的数据科学家Aditya Parameswaran撰写了一篇长文,对Jordan的一些存在错误的关键点进行了一一分析。Aditya也不是无名之辈,他发起的Ponder目前已经被SnowFlake收购。相对而言,我还是比较认同Aditya的观点的,有兴趣的朋友可以仔细阅读一下他的文章(https://ponder.io/big-data-is-dead-long-live-big-data/),具体的观点我就不在这里多啰嗦了。
2021年我曾经去参观过一个智能工厂,用2000多个机械臂替代了以前的2000名工人。当时他们的车间主管说支撑这个工厂的数据库每天会产生一个TB的数据,这些数据需要用比较便宜一点的存储设备长期保存起来。对这些数据的分析可以帮他们发现机器人参数中存在的问题,从而优化这些参数,进一步提高良品率。这些数据的价值是巨大的,刚开始的时候他们并不了解这些数据的用途,一般保留几天后就会自动删除。自从一个高校和他们的科研项目开展起来后,他们才发现这些数据的价值,于是他们立即投资建设了数据归档系统。Jordan的演讲中认为历史数据访问频率不高,利用价值不大 ,只是不知道如何删除它才会被错误的长期保存,这种对数据价值的描述明显是错误的。
实际上我们在做智能化运维系统的时候也经常发现,因为缺乏历史数据,某些算法的应用和研究往往就无法进行。前些年构建运维知识图谱的时候,有位客户拿出了压箱底的10年积累的故障案例,我们如获至宝,不过这项工作并没有顺利的进行下去,因为他们只保留了日志文件和当时的分析报告,缺乏大量的指标数据,因此很难用于建模。
“计算需求不会随着时间的推移而保持不变,因为日常工作负载的需求会有所不同,数据大小和计算维度的灵活性是关键”,上述Aditya的观点正好与我上面所说的例子吻合。当我们需要某种计算的时候,经常会发现数据的不足。
大数据的计算与应用需求来自于业务,一些感觉大数据是忽悠的朋友,可能是因为企业上大数据项目的时候只是为了赶时髦,而并不是真实的需求而已。不过不要紧,计算需求会随着时间推移而变化的,随着企业数字化转型的发展,你也许会在未来看到这些大数据的价值的。
我们今天所说的大数据处理早已经不是2004年谷歌发表那几篇论文时代的大数据处理了。正如大数据兴起时,Nosql能颠覆RDBMS的革命正如我所期望的那样并没有发生,如今我们对大数据有了更丰富的处理方式。大量的SQL ON HADOOP技术的出现,数据湖、实时数仓、湖仓一体、HTAP等技术的出现与演进,让大数据的处理变得更加简单了。硬件技术的发展也让单机集中式数据库的处理能力飞速提升。关系型数据库也能够处理大数据了。
随着大语言模型的高速发展(大语言模型实际上也是大数据的产物),AI4BI的发展也在发生质变。融合计算也日益被公众所接受,文档处理不再是MongoDB的专利,Oracle 23c中已经十分成功的将向量计算、图计算、文档处理与传统的关系型数据处理融为一体。融合计算会让大数据处理更加高效,大数据应用的成本更加低廉,这只会加快大数据价值的增值,而绝不会让大数据死亡。
数据已经快成为与土地、劳动力、技术、资本并列成为第五生产要素了,这时候唱衰大数据的行为大多数只是一些商业的炒作而已。想给大数据烧纸的朋友可能要当心了,大数据的一丝游魂已经进化成了人工智能CHATGPT,而它据说已经进军殡葬业,今后谁会给谁烧纸还真不好说啊。