可能会说谎的疫情地图-虎嗅网

本文来自微信公众号： nCoV疫情地图（ID：gh_005b01a8f0cf），作者：疫情地图项目组，原标题：《可能会说谎的地图-重新审视全国疫情的地理格局》

新型冠状病毒肺炎患者在全国范围内的覆盖面非常广泛，每天的变化也较大。由于其所固有的时空特征，采用地图的手段对疫情数据的空间特征、时间特征和数量特征进行可视化呈现成为最为普遍的方式。

然而，由于地图呈现疫情数据是一个聚合和综合的过程，所选用的空间尺度（如大尺度聚合、小尺度聚合等），单元类型（如省级、地市级等），聚类方法（分位数法、标准差法等）和呈现形式（如面元密度图、核密度图等）都会产生一定的差异。

尽管地图本身是对数据分布的客观反映，但由于表现目标、专业认知等方面的差异，导致做出的结果存在主观性、偏向性等问题。这必然导致疫情地图“说谎”。下面从这四个方面重新审视目前全国疫情的地理格局，有助于疫情分布地图的读者能够更加理性地通过地图读懂疫情的当前态势，而对于疫情分布地图的制作者，能够选用更合理的方式构建疫情地图。

1、地理单元的影响

如果不考虑相关性分析，地理单元对疫情地图结果的影响主要体现在对信息的概化程度层面。如图1所示为目前各大媒体或机构所采用的主流可视化方式，其基本统计单元是省份。

从图中可以看出，除了湖北省是一级重灾区，除广西、台湾以外，华东、华中和华南地区的其它省份均处于二级重灾区。此外，二级重灾区还包括华北的北京和西南的重庆和四川。扩散趋势呈现明显的地理邻近效应和高等级节点的层次效应。从地理大格局和中央政府的顶层管理而言，图1基本概括了当前疫情空间结构的基本特征。

图1 主流疫情地图呈现方式

但是，正如大多数人所熟悉的那样，地市行政单元层面的数据更能反映现实情形。尽管疫情的传播具有地理空间依赖性，即上文中的空间邻近效应，但中国的数百个地市是一个层次结构，而非平行的区域结构。或者说层次结构比区域结构更显著。例如区域中心城市、省会城市等，都属于高等级节点，且远高于其他一般城市节点。

如图2所示为地市层面的疫情地图。重灾区除了整个湖北省，主要分布在邻近的重庆、湖南北部、河南南部。其它的还包括京津冀、长三角和珠三角的腹地。武汉及其所在省份湖北在一定程度上不仅可以看作是整个中国的中心，也是华中地区的中心，但从地市疫情地图中可以看出，重灾区也只是扩散到了华中其它两省的边缘地区。对于其它省份，疫情严重也主要是在部分城市。值得关注的是，在胡焕庸线以南那些被疫情包围的未有疫情的孤岛城市。即使是在一级重灾区的华中地区也有此类现象。

图2 地市单元层面的疫情地图呈现方式

总之，在疫情地图制作过程中，地理单元的选择对读者了解疫情信息的影响还是较大，在当前胡焕庸线以南几乎全部沦陷，防范行动极为重要、民众意识亟待提升的严峻形势下，以更加科学、多元的形式向和社会提供疫情信息也是一项尤为重要的工作。如果涉及影响机制分析，则更需要重视地理单元的选择，尽量减小可变面元问题对分析结果带来的负面影响。

2、地理尺度的影响

除地理单元外，尺度是另一个在疫情制图中需要考虑的问题。在不考虑可变面元问题时，地理单元的大小和地理尺度的选择也有重合之处。此时，共同的影响表现在地图的概化程度方面。上文通过面元的呈现方式有利于捕捉具体的地理单元，其缺点是难以直观地捕捉到疫情重灾区的空间分布特征和等级特征。

如图3所示为疫情确诊人数的核概率密度地图。在图3的呈现尺度下，可以非常清晰、直观地捕捉到重灾区的区位、范围和等级，甚至还可以非常直接地观察到哪些疫情区域属于扩散，哪些属于迁移扩散。毫无疑问，如果关注疫情的扩散模式，这种制图方式最佳。

图3 较小尺度疫情概率密度地图

值得注意的是，作为一个尺度影响疫情制图的案例，这里对尺度的选取及其对疫情呈现带来的影响进行简要介绍。相比图3，在一个更大的尺度上构建疫情地图，结果如图4所示，空间扩散的格局更加一目了然。这是大尺度疫情地图的优点也是缺点。似乎相比图3，图4给出了更加直观和有用的扩散模型。在如图4所示的尺度上，到目前为止，较严重的疫情区中，珠三角疫情区在地理空间上独立存在，而其它几个疫情区已经基本连城一片，呈团状和带状发展。

图4 较大尺度疫情概率密度地图

基于GIS场思想的疫情密度地图因变化连续、边界模糊而具有独特的优势，尤其是在宏观特征提取和可视化方面尤为突出。在疫情时空演变和过程模拟中也可采用此此路展开。笔者在文化空间扩散、城市宏观形态特征分析中基于此思想提出了一些有效的方法。

3、聚类方法的影响

目前对于疫情确诊人员的空间分布制图大多采用自定义的方式进行分级。一方面主要原因在于多数地图基于省份展开，数量少，可以忽略数据的分布；另一方面，缺乏对地图制图过程中采用聚类方法的必要性的深刻认识。实际上，采用自定义的方法对确诊数据进行分级，主要问题在于没有考虑数据的整体分布。例如，采用Jenks’ Break方法和Quantile方法，得到的制图结果差异很大且解读方式截然不同。如图5和与6是采用相同的数据，不同的聚类方法得到的疫情分布地图结果，显然结果差异较大。

在图5中，聚类所遵循的原则是“组内差异最小，组间差异最大”。基于此原则，从图中可以看出，武汉的疫情病例远多于其它任何一个地市。其次是武汉周边及其重庆等几个地市，处于第二层级。这些处于第二层级的地市发病数量具有一定程度的相似性，可以说这些地市的病例远少于武汉，但远多于其它更小层级的疫情区。其它等级的分区的解读方式于此类似。

图5 基于Jenks’ Break聚类的疫情分布地图

如图6所示为基于无分位的聚类结果。这意味着处于一级疫情重灾区的这些地市是所有地市中灾情严重性位于前20%。次一级的地市处于前40%至20%之间。例如，乌鲁木齐属于40%-60%之间，而整个东北只有哈尔滨位列前40%。整个江苏除了南京和苏州，其它地市都在后60%。

图6 基于Quantile聚类的疫情分布地图

其它还有很多方式，如自定义、等间隔、几何数、标准差方法等。具体选用哪种方式，要视分析需求而定。一般情形下，采用定量的聚类方法由于自定义，因为大多数聚类方法考虑了样本的分布特征。更为重要的是，读图一般要在了解采用了何种方法的前提下展开，尤其是采用了聚类方法的时候。如此说来，上文对于图2的解读，如果不了解或不考虑所用的聚类方法，其结论偏差会很大甚至错误。

4、呈现形式的影响

构建疫情分布地图的视觉变量是非常丰富的，如颜色、方向、尺寸、形状等。但对于数量关系，似乎人眼对于尺寸的差异性更加敏感。不同地市的确诊病例数量悬殊，发病区位数量又较多，在此情形下，采用更有利于大众捕捉不同区域确诊病例数量的疫情分布制图方式显得尤为重要。

如图7为基于分级符号方法对当日所有确诊病例进行疫情分布制图后的结果。由于分级操作导致同一等级的数量差异被消除，因此同一等级的差异无法捕捉。这便是一种地图对疫情“说谎”的情形，实际上，此类情形的“说谎”在上面所有的疫情地图中都存在。其解决办法是依据病例数量按照统一的比例进行符号化。

如此一来，每个地市病例的数量与符号的尺寸成正比，又由于人眼对尺寸变量极为敏感，可以非常直观地捕捉到不同地市病例的数量差异及其空间分布关系。采用比例分级的制图结果如图8所示。

图7 分级符号与疫情制图

从图8中的结果可以非常明确地辨析武汉和邻近区域及其它重灾区在确诊病例数量上的差异。其它地市不同规模的病例数量及其空间关系也非常明晰。当然，每种疫情地图都有两面性，通过此图则难以直接分辨出不具有显著特征的地市的具体情形。

图8 比例符号与疫情制图

结语

国家正处于疫情最为严峻的困难时期，作为一名地理科研人员和科普工作者，希望通过此文能为疫情大众化科普贡献微薄之力。作为使用疫情地图的读者，应该正确理解疫情地图，理性思考，积极防备；而作为疫情地图的制作者，更要用专业的素养和严谨的态度制作疫情地图产品。在疫情随时扰动国民情绪的时刻，专业和理性显得更为重要。

本文来自微信公众号：nCoV疫情地图（ID：gh_005b01a8f0cf），作者：疫情地图项目组