出品|虎嗅科技组
作者|齐健
编辑 | 陈伊凡
头图|视觉中国
数据要素,正在变得越来越重要。
2023年3月7日,据新华社报道,根据国务院关于提请审议国务院机构改革方案的议案,组建国家数据局。
国家数据局将负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,由国家发展和改革委员会管理。
国家数据局的组建,将更加有利于调动各方资源全面推进数字中国建设、数字经济发展。
“摆在数据流通面前最实际的矛盾就是数据的权属和数据的安全问题。数据权属和安全问题是涉及公共利益大问题,不是哪家机构或是企业就能解决的。”上海优也信息科技有限公司首席科学家郭朝晖告诉虎嗅。
因此,多位专家与产业界人士的共识是,组建国家数据局,能够从国家层面更好解决数据要素资源开发利用面临的迫切问题。例如,目前国内在数据基础制度方面需要针对数据确权、流通、交易、权益分配、安全合规等方面进行一系列制度建设,对数据要素市场培育给予制度保障。
数据要素市场的制度保障
2月26日,中国电子商会秘书长彭李辉在发布《中国数据服务产业图谱》时介绍说,2021年我国数据要素市场规模约为815亿元,预计“十四五”期间市场规模复合增速将超过25%,到2025年规模有望接近2000亿元。从细分领域来看,数据要素的存储、分析、加工环节,市场规模均超过150亿元,为数据要素的资源化奠定了扎实基础;数据交易、数据服务的产业规模分别达到120亿元、85亿元。
然而,作为重要的生产要素,目前的市场体系尚不健全,数据产权、交易流通等基础制度亟需制定和完善。
郭朝晖向虎嗅举了一个例子,以医疗行业为例,从就医方面看,我国的医疗领域数据量非常庞大,中国人口众多,每个医院都有大量的患者、疾病数据。但是由于数据流通不畅,导致每家医院只能各自为战,无法建立统一的数据系统。这不仅增加了患者就医的难度,也大大阻碍了医疗体系、医疗技术的发展进步。即便是从技术发展出发,医疗AI的研发需要调集各方数据来“喂养”AI,但是数据要素市场没有打通的话,而医疗行业的数据相对分散,还要考虑对患者隐私的保护,这就使得相关研发企业很难获得数据,从而阻碍了技术的研发。
在很多行业里,一些企业、研究机构都曾思考过数据联盟的问题,但在实际操作中,这样的联盟极难推进。例如用于训练大模型,需要大量的数据,这给数据的清洗、筛选、标准带来了巨大的工作量。他们也希望能与拥有大量数据的企业合作,这样数据量更大、质量更好,但现实是,企业很多时候并不愿意共享这些数据。郭朝晖说,因为这些数据联盟没有行政、执法的权利,很难对数据流通起到实际的推动作用。
即便是在过去几年里成立的大数据交易所,也面临尴尬境地。此前,南都大数据研究院调查就发现,当前各地数据交易所一般都要求企业在入场交易前,为每笔交易提供专业律师出具的合规评估证明,即所谓“进场一次评估一次”。但是,这极大增加了企业入场交易的成本,再加上相关监管机制不完善,导致企业“不敢入场交易”“不愿入场交易”。 这其实也使得数据资源无法被更大程度地使用。
在企查查上以“数据交易”为关键词搜索企业名,经营状态是存续、在业和设立的经营性公司有57条。国内各大主要城市,很多产业基地均设立了自己的数据交易所,包括北京、上海、深圳、广州,贵阳、苏州、杭州等。湖南、湖北、福建等也设立了省级数据交易所。
那么这些交易所的实际交易量是多少呢?以贵阳大数据交易所为例,贵阳大数据交易所2015年正式挂牌运营,是国内最早的一批数据交易所,截至目前,该交易所累计入驻数据商502家,数据中介21家,产品总数800个,总交易笔数438笔,交易总额7.34亿元。
杭州安恒信息技术股份有限公司董事长范渊,在数据安全领域耕耘多年。范渊看来,国家数据局的组建,能够更好地协调推进数据基础制度建设,统筹数据资源整合共享和开发利用。这样,能够为大数据行业提供更丰富的数据资源和更高效的数据获取渠道,为大数据应用和数据要素市场提供更加广阔的空间。
范渊还提出了一个重要的方面,那就是对于数据标准的确立。一直以来,对于数据的交易和流通,应该以什么格式,有什么规范,一直没有一个切实有效的统一标准,这也给数据工作带来了很多麻烦。范渊表示,国家数据局将负责推动数据标准化工作,将各种数据格式、数据结构等进行统一规范,这将有助于提高数据交换的效率和准确性,加快建立数据分类分级保护制度,使得大数据行业更加规范化和标准化。
更严格的监管
“如果不把数据共享的界面打开,那么中国这么大的数据资源是没办法很好的发挥出来的。”郭朝晖认为,智能化的发展要基于数据共享才能实现。然而,数据共享难、流通慢的主要原因,除了未能清晰地进行确权、标准制定等,还有安全合规问题。
范渊表示,国家数据局组建后,将负责全国数据资源的监管和安全管理,这将意味着更加严格的数据安全标准和监管要求,使得数据泄露、滥用等风险得到更加有效的控制。
还是以数据交易所为例,理想的情况应该是,更多数据在交易所流通。但由于一些监管的不到位,一些数据流向了场外,甚至进入了“黑市”。
互联网安全调研机构威胁猎人在3月3日发布的《2022年数据资产泄露分析报告》显示,2022年国内累计捕获数据泄露事件超3200起,较2021年上升近一倍。数据泄露渠道来源广泛,匿名社交软件占比超75%。2022年数据泄露行业分布中,金融、物流、电商行业占据前三。2022年数据泄露的主要原因中,运营商通道泄露占比第一。地下黑市数据交易中,约有71%的交易披露了售卖的数据量,其中交易数据量级在1万以下的“小规模的实时数据” 超过了73%,成为数据交易的主流。
在数据安全上,欧盟的GDPR被称为“史上最严苛的数据保护规定”,而美国的个人信息保护则侧重于行业自律。虎嗅询问了多位行业、法律界人士,共识是,中国会采取一种介于美国和欧洲之间的规定,毕竟如果过于严苛,会限制行业的发展。如今,在数据安全保护上,中国有《网络安全法》,还有2021年11月生效的《个人信息保护法》。但在具体实际问题的落地上,还需要有更详细的细则和规范。
从目前看,国家数据局对产业推动力量应该会更聚焦在公共事业、政府事务,以及国计民生等数据量较大,影响也较大的领域。对那些个性化较强,或者是细分标准较多的产业推动作用可能会相对较小。
这也是行业的共识,范渊的观点是,国家数据局将推动产业走向更加稳健的发展方向,尤其对为政务行业提供产品、技术服务的乙方公司更为利好。例如,对国产关系数据库、大数据存储引擎方面,对国产信创的芯片、存储、操作系统、处理器等企业在数据层面长期会有利好 。
具体如何落地到产业中,北京海天瑞声科技股份有限公司助理副总裁崔向雨的建议是,专项支持科研机构、企业等产业主体组建创新联合体,加大对数据要素价值提升的关键技术和能力开展联合攻关,并加快成果转化和应用推广,激活数据要素潜能,释放数据要素价值。要加强大模型基础数据供给能力研究和建设,例如建设一体化基础数据资源供给服务平台、数算一体服务平台、重点行业人工智能数据集、基于区块链和隐私计算数据服务等新型基础设施,夯实数字经济的数据底座。
另一方面的建议是,积极探索和支持多地设立国家数据要素市场培育实验区,引导电信运营商、平台企业、行业领军企业等数据供给商、数据需求商和数据服务商等市场化主体积极参与,实现在数据基础制度突破、数据流通交易先行先试、数据资源极大汇聚和数据要素产业生态的集聚,加速数据要素市场培育进程。