曾记得十几天之前否?那时我们踌躇满志的跨进了2018,满怀着对未来的渴望,然后我们惊奇地发现,2018第一个火起来的词叫“撒币”…...
不是我说啥,这可真出戏啊。
似乎一夜之间,直播答题和这个叫做”撒币”的关键词就火了。王思聪的冲顶大会、映客的芝士超人、花椒的百万赢家,一时之间大佬们疯狂争当“大撒币”,人民群众则纷纷出头想当被币砸到的那个幸运儿。
当然了,不管这些平台们如何“撒”,最终“币”还是要回到他们自己口袋里的,毕竟做生意是为了赚钱,搞出来这么大场面当然是为了放后招,没听说过哪位出题让人答是为了做慈善的。除非来答题的是个AI,说不定能干到王思聪、周鸿祎们没币可撒......
毕竟,答题也是讲科学的对不对?
AI答题这件事其实也不新鲜,不信你百度输入一个“长城有多长”之类的问题,马上就会给你找出来答案。这里就是用了AI的专业答题“姿势”:知识图谱。
借着直播答题的春风,今天我们来讲讲知识图谱吧。虽然在机器视觉、语音交互等“网红技术”面前,作为AI重要分支之一的知识图谱似乎不那么出位。但是以应用程度和脑洞指数来说,这个技术绝对当仁不让。更重要的是,在“AI感知”通向“AI理解”的大路上,知识图谱近乎是无法绕开的一道关卡。
更更重要的是,它能帮你答题啊……
知识图谱是什么?
知识图谱这个概念的提出时间并不算太久,但是要追根溯源理解这个技术到底是玩什么的,那可能真要往上倒腾几十年才行。
上世纪40年代,人工智能被提出之后,无数科学家们就开始琢磨,到底用什么方式能让机器模拟出人的智慧呢?琢磨来琢磨去,人对于信息能够进行关联理解似乎是个路子。所谓信息关联,就是人类在接受一个信息后,会把它放在记忆中进行归纳和调用。比如说你打小认识了你三舅,绝不可能过几年管他叫二哥......
利用这个思路,上世纪50年代末,学术界提出了语义网络(semantic network)的设想,打算把数据进行结构化的处理,让单个信息组合成有联系、能共鸣的“知识”。今天我们用到的很多技术都来源于语义网络,比如机器翻译、自然语言处理等等,知识图谱也是其中之一。
上世纪80年代,受到多方面刺激的地球人开始了一次AI复兴运动,而这次运动的主角,就是各国开始打造专家系统和知识库。那时候科学家们相信,如果把人类大量知识进行逻辑化关联和语义网络存储,最终人类就能打造出全知全能,啥都懂的人工智能。可惜好景不长,最终AI没等来呢,PC先来了,专家系统纷纷被弃置,但是海量知识构成的知识库却流传了下来。
2012年,基于语义Web技术和Freebase等优质知识库,谷歌宣布推出了知识图谱(Knowledge Graph)概念,并在2013年投入使用。所谓知识图谱,实际上是建立在网页百科知识库基础上,利用语义网络进行知识关联的技术。它可以用来帮助学术人员快速搜集和理解信息,也可以用来分析情报,辨别信息真伪。在产业端则为搜索、内容推荐和智能问答提供了基础,成为今天AI领域不是十分热门,却也足够强势的一个技术类别。
如果说了这么多还没明白,那就举个直白的例子吧:
假如,你这几天很好奇一个叫PG ONE的词为啥火了,然后你去搜索一下,结果给你推荐的词是PG TWO、PG THREE......那你就跟没搜一样。假如蹦出来两个词,一个是贾乃亮,一个是地沟油,那么你就了然了嘛。
所谓的知识图谱,就是让智能体去理解知识之间网络关系,并能主动以此提供服务的技术。
今天的知识图谱可专治各种“撒币”
上文说了知识图谱专治各种“撒币”行为,并不是随便讲讲的。我们要知道,2002年知识图谱技术如果跟王思聪们刚一波正面,那是基本没有胜算的。
这里有几种可能:首先是假如你的知识库是更新到前年的,人家问你PG ONE的嫂子是谁你怎么办?或者人家不问你长城有多长,问你最长的墙有多长你怎么办?
在考验真人的直播答题过程中,可能面临各种语言上的调整、提问方式的改变,以及加入最新信息。这都是几年前基于单一结构知识库的知识图谱技术难以胜任的。
这就把知识图谱难住了吗?不能够,毕竟为答题而生,必须要搞点新高度出来才行。
这项技术在近几年间发生了重要变化,比如:
1. 大数据+机器学习带来了史无前例的效率契机
今天的AI复兴,是建立在机器学习驱动大数据的基础上的,知识图谱也是如此。举例来说,搜索引擎知识图谱技术,是建立在搜索数据和百科、问答等数据库之上的。数据本身的优质化是知识图谱运行的基础。而在机器学习、深度学习领域的积累,则让图谱技术实现了及时化、逐步完善图谱关联强度和理解力提升。换句话说,知识图谱技术正在变得愈发即时性与可成长。
2. 语音交互成为启动知识图谱的新形式
让知识图谱想要真的为人类所用,那么就不能是人类用固定方式去触发知识图谱的模板。而应该是知识图谱主动理解人类的语言和思维习惯,做到主动输出服务。这就需要知识图谱与语音交互紧密结合。
3. 强语义理解能力成为关键
能听懂“长城有多长”,却听不懂“长城从东到西一共有多少距离”的知识图谱,显然是知识没谱。深度学习各种语意、语义、语序和方言的知识图谱能力,也成为了目前知识图谱技术的唤醒核心。
这几种能力加持下,把知识图谱伪装成选手去搞“撒币”,显然已经不算什么了......但是如果只干这点事,其实也蛮亏的。
“撒”出一个明天
无论是语音交互还是机器视觉,我们今天正在努力教会AI一件事,那就是识别。可是,在识别之后呢?AI下一步要干什么?识别的下一步当然是理解和处理,但如果想让AI开启这些能力,很多人都认为,知识图谱的爆发将是AI下一步的必经之路。
知识图谱的核心,在于通过数据生成可视化的知识链条,用链条形成网络,利用网络来进行预测、生成自动化,最终生成机器主动提供的智能化服务。
要知道,人类理解世界并不是基于一个个散乱的信息,而是基于信息背后的“知识”。
我们期待的知识图谱技术,是通过这种技术的完善,把AI调整到主动输出服务模式。传统计算时代是你想到的,电脑帮你做出来。而知识图谱时代,是你想不到的,AI可以想到。
能做到这一步的AI技术,当然不会只满足去答题,做个直播。人家的使命是改变世界好不好?
其实,知识图谱作为一种隐藏的后端技术,今天已经悄然布局在我们生活的方方面面。比如我们今天在百度搜“李白写过哪些饮酒诗?”,已经不是跳出来有这些关键词的网站,而是直接跳出来你想要的答案,这背后就是知识图谱解答了你的问题。
更重要的是,知识图谱技术作为AI交互手段的必要触达点,正在为其他AI产业提供帮助,比如智能处理、无人驾驶。更远的未来,或许是利用知识图谱技术达成物联网间的协作、人机交互的全新升级,能做的远远不止于答题这一件小事。
所以呢,直播平台上谁给谁撒币,谁是大撒币,其实也不是很重要了。真正重要的是,技术正在努力把未来的币,撒到现在的土壤里。