本文来自微信公众号:晨山资本(ID:chenshancapital),作者:吴文超,原文标题:《大数据工具变迁简史:人的需求,略大于算法的疆域 |数据驱动四重奏之一》,题图来自:视觉中国
近年来,人们频频“遭遇”各类大数据工具,体验到许多前所未有的变化。不管是惊喜还是惊吓,数据工具都在加速整个社会的数字化转型,面对这样的趋势,加深我们对数据工具的认识和理解将越来越重要。
本文对大数据工具的变迁作了阶段性总结,并对未来数据产品的新方向进行探讨。通过当下可识别的坐标,铭刻十年前的历史引爆点,呈现数据生态链的环环相扣,也看见大数据工具不只是一套封闭的技术体系,人与数据产品互缘同构,它的一头接入算法的革新脉络,另一头与人的生产生活有机相连,持续回应更新的现实、观念和技术,并不断衍生出新的形态支撑各个行业的运转。
不过,无论解题工具(数据工具)多好,解题思路(算法)多棒,最终我们还是要一遍遍回到最原始的价值拷问——我们解题是为了什么?我们还将探讨工具大众化、跨云互通、架构融合和数据安全等数据产品的新方向。
我们看到数据本身是世界性(worlding)的存在,就像世界本身是一个开放的、涌现的、迭代的过程,数字化的进程也是如此,两者互为表里。
自1946年计算机发明以来,我们经历了软件、互联网、移动互联网到现在万物可联的时代。计算机也从最初的辅助“计算”功能,到现在成为我们承载信息的重要“伴侣”。个人的社交、购物、旅行等生活内容,企业的设计、生产、经营和管理都以数据的形式被记录着。
这些变化,在近十余年,尤其是移动互联网(PC时代计算机还只是触达了少部分人)让普通人的信息被计算机记录开始,令大家感受尤其明显。这背后同时也是一段数据工具的变迁史。
历史引爆点与萌芽期
在互联网出现之前,软件还主要服务于企业,过程中诞生了如Oracle、SAP、IBM等为企业提供信息化的软件公司。在漫长的时期中,软件承载着数据记录、计算和管理能力,数据库也以Oracle、IBM等公司的产品服务于数据管理需求为主。
在后期,随着企业经营决策复杂性的提升,利用数据分析进行决策的需求逐渐被提出,出现了Teradata等数据仓库产品,Oracle、IBM等传统数据库企业也都纷纷推出自己的解决方案。这几十年的时间里,大家更多讲的是软件而非数据。甚至到PC互联网时期,真正接触和使用计算机的人依然有限。
2010年左右,智能手机的出现,移动互联网的爆发,实现“人联”,才真正开启了数据时代。也是在这前后,数据量的爆发式增长带来了数据工具的爆发。
▲ 2010年左右是数据工具爆发的奇点
2010年左右数据工具大爆发,数据平台架构百花齐放。
2010年之前传统数仓还是以处理信息化系统中的结构化数据为主。2010年,为了应对移动互联网中出现的大量用户行为日志等非结构化数据,以Hadoop为代表的大数据平台在此背景下诞生,揭开了大数据工具的序幕。并于随后几年出现了一大批围绕着Hadoop生态的大数据产品。
Hadoop批量处理能力强,但实时性差,难以满足应用系统对用户提供更加实时服务的需求,此时Spark、Flink等流式处理平台横空出世。批流数据并行的Lambda、Kappa等架构逐渐成为主流。
随着Hadoop的非实时性缺陷越来越让人难以忍受、硬件成本的持续下降和云计算的渗透,MPP架构的数仓再次回到人们的视野,尤其是Snowflake以云数仓的方式刷新了大家对传统数仓的认知,国内新的数仓解决方案也如雨后春笋般出现。
然而,数据平台架构演进的步伐并没有因此停止,数据湖、湖仓一体等架构在最近两年又被大家提出和应用。
事实上,百花齐放的数据平台架构背后是数据和应用复杂度的提升,优秀的产品永远致力于把功能做到极致,突破自身产品能力的边界;而优秀的用户永远在寻找适合自己的架构设计和产品组合,用户和产品就这样并行推动数据工具的发展。在这过程中也诞生了大量优秀的数据产品企业,如Splunk、Databricks、Snowflake、Clickhouse等。
▲ 数据平台架构的变迁
数据工具是一个生态链。
以上更多是从横向看整个数据架构的变迁,但纵向来看,任何一个数据架构都并不是孤立的,而是需要一整套数据处理的工具链才能完成数据处理的闭环,包括采集传输、查询处理、数据转换和分析、输出等多个环节。虽然数据流的顺序可能不完全一样,但模块基本一致。生态产品的诞生也和前面架构设计的多样性、应用的多样性息息相关。
我们看到另外一个比较主流的创业方向便是兼容于各种数据工具和应用系统的生态工具,如做数据采集的Fivetran、管道传输的Kafka和建模转换引擎dbt。
▲ 数据处理的典型环节 资料来源:a16z.com
数据产品众多,架构选型成为关键。
经过十余年的发展,受益于开源、国内外互联网大企业的引领和创业公司不断创新,数据工具也是层出不穷,每一个数据处理环节都有大量可选工具。
工具没有绝对优劣,而用工具的人至关重要,如何搭建适合业务需求的工具组合才是用户需要重点关心的问题。
▲ 数据处理的各个环节工具众多
需求和算法驱动数据产品滚滚向前
现在我们拥有众多大数据的工具,但工具背后本身诞生的背景是什么,为什么会有如此多的工具?
这最终还是要回归到方法和价值上:我们处理的思路有什么革新?为什么要处理各种各样的数据,以及处理这些数据能带来多大的价值?
解题思路,算法驱动。
我们首先来看看人们处理数据的思路有多大的变化。“思路”在计算机领域换个词就叫“算法”,而“算法工程师”这个岗位大体是伴随着数据科学和人工智能诞生的。
在软件时代,算法更多停留在传统统计方法的应用:排序、求和、求统计值等,其最典型的应用在BI产品中,用于轻量级企业内部数据洞察。
在互联网时代,信息量的爆炸给统计机器学习带来新的机会,包括经典的逻辑回归、SVM、KNN等分类、聚类算法在搜索、推荐引擎中被大量使用。
同样是在2010年,AlexNet在ImageNet中图像识别的优异表现揭开了深度神经网络的序幕,大量的神经网络模型、算法被提出,不仅仅应用在图像领域,同样应用在语音、文本等非结构化数据中。而深度神经网络对数据的依赖达到了前所未有的高峰,数据甚至成为了AI的第一生产要素,这又对数据处理工具提出了更高的要求。
近年来,AI逐渐走入大模型时代,拥有高算力、大数据量的互联网企业训练了超大规模参数的通用AI模型,尤其是在文本和内容生成领域。这再一次推动了数据使用的新模式,对大模型使用者的数据要求从大而全走向细而精。
▲ 算法发展史
无论你的解题工具(数据工具)多好,解题思路(算法)多棒,最终我们都要回答一个最原始的价值问题:我们解题是为了什么?有什么作用?
解题目的,价值驱动。
在软件时代,数据聚合的目的更多是为了企业内部进行经营决策,所以BI是数据最早的出口形态。到了移动互联网时代,各种数据被互联网企业收集,进行用户洞察分析,提升搜索引擎、电商甚至信息流图文、视频的推荐准确率,提高用户点击率,数据价值崭露头角。
随着机器学习和神经网络的发展,人们发现数据可以被利用的思路和方法被进一步打开,更多非结构化数据、半结构化数据和最原始的结构化数据被收集,开始用于广泛的商业场景:
1. 产品的研发迭代
互联网企业是利用用户数据迭代产品的最大受益者。数据辅助产品设计不仅仅可以在互联网、软件开发领域,在其他行业领域也可以被应用——服装设计中通过收集用户购买行为来进行款式设计,餐饮口味选品可以通过收集用户点评数据来辅助决策。
2. 数据助力营销
其实最早的BI很重要的一个应用场景就是被用于营销洞察,但彼时缺乏足够的外部数据支撑。随着近年来电商的崛起和线上购物渗透率的快速提升,企业对外部消费者的洞察也越来越精确,精准的数据营销也成为数据应用的典型场景。
3. 数据助力企业管理
传统的企业管理更多关注流程管控,缺乏精细化的资源管理和决策依据。在数据时代,员工的表现、企业的生产、销售都进一步被数据化,企业管理者拥有更多的维度洞察整个企业的人事和过程的管理。
4. 数据助力人机协作
目前我们看到的数据应用大部分还是围绕着“人”的数据。随着“物联”越来越普及,机器和设备的数据也被大幅收集,人们可以更加了解机器,人机协作也变得越来越高效和精准。
▲ 数据应用发展史
目前数据在很多行业还处于渗透期,大家更多关注营销,但并没有更深入地推进到产品研发、企业经营管理和人机协作领域。
随着数据在金融、电信、工业、政务、医疗教育甚至农业等行业应用,个人和企业将被深度数据化,行为和决策受数据驱动,执行过程被数据记录,劳动成果被数据化衡量,甚至整个社会的运转都是由数据在背后驱动,这将对数据工具提出新的需求。
数据产品发展方向:大众化、跨云、架构融合和安全
数据产品的诞生从源头来看是需求的驱动,从路径上看需要IT基础设施的助力,包括算法的迭代、硬件性能提升及成本下降,企业IT架构的调整。需求和技术的相互促进将带来更多创新机会。
1. 工具大众化
人类生产工具的最终目的是提升生产效率。让复杂的工作变得更简单,让机器去负担最复杂的那部分运算逻辑,让人关注工作中更具创造性的部分。
上面所列的绝大多数数据处理工具都有较高的技术门槛和使用门槛,但企业最终使用数据的是决策者、运营人员和业务人员。他们并不具备高超的IT技能,这就无形中增加了企业使用数据过程中的沟通成本。所以,未来数据工具大众化也一定是大家追求的目标。
国外不少产品用Excel的形态来方便业务人员使用数据,降低工具使用的门槛。虽然这种形态无法发挥大数据工具的所有能力,但在用户体验上还是更进了一步。
大众化UI(交互界面)的形态并没有局限,但如何保证易用性才是问题的关键。也只有产品更加大众化,才能进一步扫清数据工具持续提升渗透率和用户基数的障碍。
▲ Sigma产品用Excel Spreadsheet的形态方便用户使用数据
2. 产品跨云平台能力
公有云厂商向来是底层技术实力比较强的企业,其数据类产品当然也并不落下风。Snowflake能在AWS生态繁荣发展的前提也是使用AWS的S3来存储。而AWS在数据产品中从提取传输、存储、数据处理到消费都有对应的云产品。
如果公有云客户的第一选择还是考虑云厂商第一方产品,那第三方产品是不是就完全没有机会了呢?
▲ AWS全套数据产品链
即使放眼全球,多云和混合云架构也是企业的主流选择。这就给大量独立的数据工具提供了广阔的生存空间。跨云数据产品也将成为未来企业需要考虑的重点。无论是公有云还是非公有云,数据产品能兼容于各类异构云/云原生基础设施,将成为用户采用的前提。
▲ 全球92%的企业都有多云战略
3. 产品架构融合能力
以往我们进行软件架构设计的时候,硬件成本是重要的考量因素:如何节约内存?如何降低CPU消耗?如何平衡IO吞吐和读写性能?随着摩尔定律的深入和后摩尔定律时代的到来,硬件复杂度提高,能力越来越强,硬件的单位成本也随之下降。
▲ 4Gb和8Gb DRAM 价格过去5年呈下降趋势 资料来源:MacroMicro
这时候我们需要考虑如何把更多的事交给硬件去做,而软件也在扩展自身功能的边界。以近年来较受关注的概念HTAP(混合事务型和分析型数据库)为例,传统AP(分析型数据库)更关注吞吐、TP(交易型数据库)更关注实时读写,但随着硬件IO能力的提升,大家开始探讨为什么不能有一款数据库可以同时兼容二者的能力呢?
▲ OLAP和OLTP数据库正在融合
除了HTAP,在数据库领域新兴的其他趋势如批流一体、湖仓一体、AI Native(算法/AI内生在数据库产品中)等等,无不体现了硬件能力提升背后软件功能的边界越来越宽的趋势。因此,数据产品应在设计之初就考虑未来产品的可扩展能力,如何逐步拓宽自己的功能边界,以获取更大的市场。
前面提到数据类产品未来将在各个行业深入渗透,但行业和行业之间对产品的要求千差万别。到底是产品本身能力扩展能够适应绝大多数行业,抑或未来出现行业版产品呢?这也是非常值得探讨的话题。
4. 数据安全
如果不解决安全问题,数据的价值发挥将受到极大的限制。随着数据价值的不断提升,数据安全的价值也会越来越大。
不久前,工信部等16部门联合发布的《关于促进数据安全产业发展的指导意见》提出,到2025年,我国数据安全产业规模超过1500亿元,年复合增长率超过30%。
要知道,2022年整个网络安全的市场规模也不超过1000亿元,而这里面还包含了70多个产品品类。
我们在《数安法》颁布之前就已经布局了数据安全运营、API安全、隐私计算数据安全新兴方向,也从这些企业的发展感受到市场对数据安全需求的快速提升,也就不难理解政策部门对2025年数据安全规模的乐观预期了。
回头来看,大数据工具的变迁历史不过短短十余年,不过天下难事,必作于易,天下大事也必作于细,前路还有很多可能性。2023年,期待能看到更多充满生命力的创新涌现。
本文来自微信公众号:晨山资本(ID:chenshancapital),作者:吴文超