数据挖掘中国“鬼城”的范围

过度开发使中国的一些城市区域变成了近乎无人居住的“鬼城”。直到百度利用其大数据实验室发现这一问题,人们才知道情况有多么严重。

近年来,中国的城市发展经历了人类历史上前所未有的一段高速扩展时期。城市面积从1984年的8800平方公里增加到了2010年的41000平方公里。而这还仅仅只是一个开始。中国在2011年到2013年间使用的混凝土比美国在整个20世纪使用的总量还要多。

但有一些建筑却不得其所。在中国的各个地区,开发商在极短的时间内修建了大量的房屋,以致于在这个全球人口最多的国家也出现了供过于求的状况。结果就是众所周知的“鬼城”现象——整个城市地区几乎全部空置。

但大部分有关鬼城的报道只是传闻或者只是基于不可靠的测量数据,例如简单计算居民楼夜间亮灯数。这是一个特别不准确的方法,因为它忽略了旅游引起的季节性变化。许多地方在旅游旺季房屋紧缺,但到了旅游淡季又无人居住,这种现象不仅仅是在中国。因此无法将其与鬼城现象区分开来是一个很大的问题。

这就引出了一个有趣的问题:中国的“鬼城”问题究竟有多严重?

现在,多亏了百度大数据实验室的迟光华等人的努力,我们已经得到了一个大致的答案。百度是中国版的谷歌,也是全球最大的网络公司之一。这些人利用百度收集的用户位置数据计算出了中国鬼城的具体所在。通过对用户的长期跟踪,百度团队可以将“鬼城”与季节性空置城镇区分开来。

百度有一个庞大的数据库可以利用。百度有大约7亿注册用户,占中国13.6亿居民的很大一部分。

当然,这些用户主要是年轻人,因此该数据并不具有中国社会的广泛代表性。但是,只要将测量控制在几十米范围内,其数据还是能够说明中国的城市密度及其随时间和国家变化而变化的情况。

百度在2014年和2015年对用户实施了长达六个月以上的全天跟踪,并使用常见的聚类算法来计算用户的起始位置。然后将这些位置与另一个已知的居民区数据集相关联,以此计算出用户的居住位置。接着再计算城市密度——每1万平方米区域内的居民数量。

根据中国住房与城乡建设部的声明,面积为1平方公里的标准城市区域可居住1万人。池光华及其同事将鬼城定义为密度仅为标准密度一半的区域。

为了确定这些区域的位置,他们创建了一种算法,可以简单寻找密度小于中国标准密度一半的区域。但他们还是进一步对这些地区的密度进行了长期跟踪以观察其密度是否会在旅游旺季有所增加。

结果很值得一提。团队不仅在中国发现了50多个鬼城,而且还对其空间分布及其与周边地理和城市环境的关系进行了分析。

他们以乳山为例,乳山是一座滨海城市,有21公里的美丽海岸线已经得到了大力开发。这里的房屋每年有大部分时间都无人居住,但到了旅游旺季却是人口密集。这清楚表明乳山是一个旅游中心,而非“鬼城”。

相比之下,康巴什市虽然居民密度很低,但它的城市人口却显然是以周循环模式变动。这正是“鬼城”的一个明显征兆。

首次对“鬼城”现象进行恰当地测量是一项非常有意义的工作。“百度大数据可以在全国范围内准确无误地完成人口实时计算,而不只是简单地将某些居民区夜间亮灯的房屋数作为‘鬼城’的指标。”迟光华等人说道。

这不仅有助于中国政府在未来制定更好的规划决策,同时也是给考虑搬迁到这些地区的人们的一个提醒。(百度一直小心避免在此研究中对鬼城进行排名,以免影响房地产价格)

百度团队已将其工作数据发布在了交互式网站上bdl.baidu.com/ghostcity,以供所有想要深入了解的人使用。

更多内容请关注官方微信:mit-tr