在最近的德州教堂枪机惨案中,有人把部分责任归咎到美国空军的头上,因枪手曾在美国空军服役,而美国空军却未能及时将枪手在服役期间的家暴获罪情况提交到联邦调查局,导致枪手的暴力前科没能及时录入数据库,从而通过了枪支购买的背景审查。
把这桩惨案怪罪到美国空军的头上未免有点牵强,说到底还是公共治安情报系统的不完善。不过,相信未来这样的情况会得到得到改善,最起码在美国空军中是这样的。
据报道,五角大楼国防情报部部门主任、美国空军中将杰克沙纳汉正在尝试在项目中加入人工智能技术。在他启动的Maven项目中,就利用了机器学习技术来检视无人机拍摄视频。
不仅仅是空军,今年四月美国国防部还签发了相关备忘录,要成立“算法战跨职能小组”(AWCFT),推动国防部加速融入人工智能、大数据、机器学习等技术。
其实在国防、军事中率先应用新技术并不是什么新鲜事,反而在战争时期,还会刺激技术的发展。现在美俄两国的IT技术,有很多都是靠冷战时期打下的基础。
战争与技术这一话题太过庞大,今天我们就单单从情报工作的角度来看,人工智能能发挥出怎样的作用。
听起来就很技术范的情报工作都是干嘛?
“情报”二字似乎天生和代码有着联系,我们在科幻电影中经常能看到黑客在键盘上飞舞手指,插上一只小小的U盘就盗取了影响世界格局的关键信息。现实生活中,处在棱镜门风波中心的斯诺登也是一副技术宅的形象,满足了人们对黑客间谍的所有幻想。
实际上间谍、黑客、骇侵这些关键词只是情报工作中的一小部分,大部分情报工作的目的是为了保卫我们的安全而不是在拯救世界,在工作量上,检阅各个渠道传送来的数据,比传说中的敲代码黑系统要多得多。
而在近几年,随着移动互联网基础设施的普及,以及无人机、摄像头等等传感器的发展,情报工作要处理的数据量发生了一场大爆炸。
以往我们的获知的情报信息大多是邮件、手写文档、电话录音和照片等等,现在摄像头和无人机正在源源不断的向情报机构输送着大量的图片和视频,社交网络上每分秒都在诞生着成TB的信息。如果能及时对这些信息进行处理,把很多社会安全事件遏制在萌发阶段。
只可惜目前数据虽然在,我们却没有足够的能力去处理,他们只能默默沉睡在云端,甚至会因储存空间不够而被覆盖掉。
在这其中,人工智能可以做些什么?
让计算机成为实习生,一个情报工作者的质朴梦想
在以上的情况中,我们能看到在情报工作中的第一步就是信息的处理——把大量的非结构化数据经过清洗和标注,把计算机采集的数据压缩成能被人脑容纳和理解的有用信息。
这些就可以利用上语音识别、文本识别、人脸识别等等较为基础的技术。美国空军正在研究的Maven项目,就是利用机器视觉识别无人机监控视频的内容。实际在情报工作中,这些识别技术可以更加有的放矢——识别出某一类人的服装面容、某些敏感信息的关键词/发音等等。
当然这些只是低阶的数据信息筛选工作,理想状况是,机器学习技术并不只是盲目的对某一些关键词和画面做出屏蔽或警报,而是能够对文本、视频等等信息有一定的整体、动态化的理解,对现实情况有更加精准的理解,脱离机械的固化行为,成为情报工作人员的实习生。
绕不过棱镜?或许可以问问神奇的开源数据
简单设想一下,做到这些工作应该会利用一些能理解长文本、有回溯能力的算法,比如LSTM。但想让机器学习在情报学方面发挥接近于人甚至超人的作用,光靠简单的算法上的改变是不够的。
我们可以想一想,真实的情报工作中,最能称之为“神奇”的是哪一项?
答案是,靠开源信息推理出秘密信息。不窃取、不骇侵,仅仅靠公开的信息就能获取到关键性情报。
比较知名的是我国一桩“照片泄密案”。1964年《中国画报》封面刊出了一张照片,大庆油田的“铁人”王进喜头戴大狗皮帽,身穿厚棉袄,顶着鹅毛大雪,握着钻机手柄眺望远方,背后能依稀看到井架。
而日本情报专家根据王进喜的衣着、手柄样式、井架密度等等判断出了石油基地在大庆,并研发出了适合大庆的设备,在中国政府采购设备时一举中标。
接下来,我们可以再想一想,在当今的人工智能领域中,最艰难的敏感的话题是什么?
没错,就是数据的敏感性。想获取人们的聊天记录和通话记录并不困难,可运用这种数据的合理性就很难说了。尤其在情报工作方面,取得那些非公开的数据不是难点,难点是数据脱敏,或者说是不让别人知道自己侵犯了他们的隐私。
两者结合,就得出了答案。
用知识图谱把人工智能变成人类专家
我们现在已经拥有很多空开的信息了,深度挖掘开源数据,发现数据与数据间的管理、信息与事实间的关联,是当今人工智能在情报学中能做出的最大贡献。
曾经为搜索引擎做出贡献的知识图谱在这时就可以帮上忙——作为人工智能大概念下的子集之一,知识图谱的价值在于理解数据的内在含义,把以往的“名词搜索”变成语义搜索,从而在离散的数据间建立联系。
现在不需要日本情报专家,只需要通过算法来寻找数据与描述之间的关系,也能发现中国的油田建在哪里。
如果把这张照片做成数据集,举办一场目的是找到中国油田在哪里的黑客马拉松,过程大概会是这样:首先对用计算机视觉技术对照片进行识别和挖掘,结合当时中国各地天气情况就能圈定出大概的地理位置。再标注出背景中的高架数量、手柄样式,和数据库中的信息作比对,就能识别出油田的容量和规模。完成这些工作,大概只需要……5分钟吧。
而利用上知识图谱,情报工作能做到的不仅仅是找油田这么简单。中国一家数据机构曾经做过这样一个针对公共安全的项目。这家数据机构整合了分散在各个公安系统的数据,从中挖掘了不少模型和规则。这意味着,把这些规则运用到新增数据之中时,可以识别出这些数据中的高危因素。
这样的知识图谱建立的越广、越深,就越能达成让人工智能成为人类专家一样情报工作者的愿景。
今天所介绍的,只是人工智能应用于情报工作的冰山一角,在真实情况中,人工智能中的种种技术已经成为了情报工作中的基础设施。
国防、公安这些元素不能被个人所左右,但值得留意的,是出现在商业情报中相似的逻辑和可能性。在最近热播的职场戏《猎场》中,胡歌还要靠手机拍照来窃取商业机密。相信不久之后,商场斗争情节中的主角就不再是西装革履的投行精英,而是穿着格子衬衫的码农了。