15类城市的功能同位概率研究
·176 words·1 min·
0
Table of Contents
Colocation - This article is part of a series.
Part : This Article
-
对于同位概率的理解: #
- 根据条件概率的公式,A和B之间的同位概率=2,用语言表述就是:
- 1)当一个格子有B出现时,会让这个格子里有A出现的概率是其平均值的2倍,
- 2)当一个格子有A出现时,会让这个格子里有B出现的概率是其平均值的2倍
- 所以同位概率首先是有上限的,上限是这个格子一定出现,也就是“1/这类功能出现的概率”,即“1/这类功能的比例”
- 这里要讨论一个概念,就是数值的标准化问题,究竟应该比较同位概率的倍数,还是比较当功能A出现时,功能B出现的概率
- 比如11级城市A和B的同位概率是2,12级城市A和B的同位概率是2.1,但是两者算回概率是一致的,怎么理解这个问题
- 确实应该是相对初始概率来的,比如12级城市某种功能出现的少,是因为这种功能的统计数据本来就少
- 根据条件概率的公式,A和B之间的同位概率=2,用语言表述就是:
-
方法 #
- 形成每个城市的网格统计数据,划定研究范围和POI分类
- POI分类粗调整 #POI分类
- 地名地址信息、事件活动、通行设施删除
- 汽车服务、汽车销售、汽车维修类以大类计
- POI分类粗调整 #POI分类
- 分城市级别计算功能同位概率
- 针对不同尺度的网格计算每个城市尺度的区位熵,并得到每个格子内的某类功能相对于这个城市来说是否是优势功能
- 分不同级别的城市计算功能同位概率
- 最后得到每一级城市不同尺度的功能同位概率
- 对于同一尺度的不同城市,筛选出其中同位概率连续高的值
- 对于每一级城市,找出连续同位概率位于前1/4的值,==判断连续(超过3个)位于前1/4的类型==,以其最大值作为两者间的关联值
- 有很多数值是连续很长,但中间断开,这类数据被舍弃是否合理?
- 考虑用平均值来表征高值,标准差来反映波动,取平均值的前1/4?
- 发现往往高值的标准差也比较大,但是虽然波动大,但是波动后的低值也始终超过前1/4
- 观察到平均值的分布呈现典型的长尾分布,同时看到cp文章中写了用[[head-tail间断法]]来解决长尾分布,设定了一个min-prev=0.5,想到两个优化的部分:一个是在gephi图中用平均值似乎更合理一点,第二个是怎么定义高值
-
长尾图
-
有价值的高值区间:大于1就是有价值,合理的究竟是最小值大于1还是平均值大于1?由于相关性数值过多,最小值大于1是对数据相对强的筛选两类功能在不同尺度可以存在关系强弱,但是弱也不能弱到完全不相关,本文以全大于1作为一个重要临界值进行筛选
- 在这个基础上计算各个尺度最小值大于1的组对,比较不同城市的数量和比例
-
结果基本与预期不太一致:不同等级的城市组内和组间的差别不大,反倒是1级和3级城市的比例比较低 #
-
- 在这个基础上计算各个尺度最小值大于1的组对,比较不同城市的数量和比例
-
第二个有价值的界定值:平均值大于多少
-
-
同时认识到原本gephi中显示的值是最大值,两类功能相关性的最大值的意义需要再讨论,可能平均值更合理一点 #
- 对于每一级城市,找出连续同位概率位于前1/4的值,==判断连续(超过3个)位于前1/4的类型==,以其最大值作为两者间的关联值
- 形成每个城市的网格统计数据,划定研究范围和POI分类
-
数据:许师姐的数据18年图新地球数据
- keyword分类,做了进一步细分和归并
-
几个指标的理解
- 度:两个功能同位值高,则两者之间有联系,度描述联系的多少
- 图上的连线:两个功能同位值高(连续在多个尺度内高,且绝对数值和其他相比都高,高于临界值7)那么两者间就会有一条连线–连线说明的是一种较强的相关,但没反应尺度
- 功能同位概率的计算值:a和b类有多大概率出现在一个格子里,得到的数值只有比较意义而不具备完全的统计意义(算平均值和求和是无意义的?)
- 不能求和不能求和 background-color:: red
-
两个维度的讨论: #
- 对于15级城市分别重复之前的研究,观察图形之间的差别和相似点**(某级城市内在各个尺度都高)**
- 相似点:
- 所有级别城市的==同类==集聚都非常明显,制造业部分(与制造业同位关联性较强的如计算机IT、文化创意产业和房地产企业)度假型酒店、餐饮及mall三个组成部分的功能同位关系相对稳定
- 这个结论要想说明应该先分类型,判断哪些是同类
- 看图得到
- 1级城市
collapsed:: true
- {:height 421, :width 626}
- 2级城市
collapsed:: true
- 3级城市
collapsed:: true
- 4级城市
collapsed:: true
- 6级城市
collapsed:: true
- 8级城市
collapsed:: true
- 1级城市
collapsed:: true
- 所有级别城市的==同类==集聚都非常明显,制造业部分(与制造业同位关联性较强的如计算机IT、文化创意产业和房地产企业)度假型酒店、餐饮及mall三个组成部分的功能同位关系相对稳定
- 不同级别城市功能同位网络之间的差异(高级别是指123,低级别是指131415)
- 高级别城市的度值更高,联系更复杂,跨类别之间的强联系更多,复杂度高到一定程度是明显的组团仅剩余二三产的两个大组团
- 3-9级城市,机场的同位枢纽作用明显-平均度很高
- 高级别城市的度值更高,联系更复杂,跨类别之间的强联系更多,复杂度高到一定程度是明显的组团仅剩余二三产的两个大组团
- 相似点:
- 在同一尺度范围内的不同城市之间有什么差异(某尺度内在各个级别的城市都高)
- 比如,都是200m的功能同位网络,1-15级城市间的差别是不是很大
- 实际差别不是很大,13-14-15级城市小城市往往会出现特别大或小的数据,剩下的基本比较平均(或者说波动的规律过于复杂不好确定,两个维度的数据量都过大)
- 尺度越大,整体来看数据的波动就会越小
- 比如,都是200m的功能同位网络,1-15级城市间的差别是不是很大
- 对于15级城市分别重复之前的研究,观察图形之间的差别和相似点**(某级城市内在各个尺度都高)**
-
城市 尺度 同位
-
1108数据检查尝试 #
- 用关键词分类企业难度很大,在尝试建立分类关键词体系的时候肯定会有不确定的误区
- 同时面临,被分开的类别和已有类别合并的问题
- 如果使用已有的关键词表,则会面临准确度类似的问题
- 确定的技术路径:
- 1.观察已经有的数据情况
- 2.合并所有的数据观察是否有重复
- 3.纠正几个有问题的数据再次运算
-
1109
- 观察到制造业的部分分类比较准确,计划用原来的数据做一点微调
-
1110
- 统计了一下poi个数,发现重分类的高德poi有3125万个,购买的2020年poi只有2657万个,应该是有需要合并或者重复的部分
- 意识到不能利用师兄的原始数据再算一次,因为数据对应不到原来运算的shp上
- 可能的两条路径:
- 只重新修改比如机场、整形医院等列数据,然后再只是重新算这两组数据,做小的调整
- 重新完成一次重分类
- 技术路线1:粗分中类,保持企业不打开–没有办法看到产业集群的组团
- 技术路线2:细分小类,用关键词打开企业
- 先用小的category进行一次筛选
- 再用大的subtype进行一次筛选
- 再建立一套关键词系统分公司企业部分
- 技术路线3:用解扬的企业部分替换现有的
-
1111
- 终于完成了替换的代码,之后可能对关键词进行一下调整,发现5最多
-
新结论 #
- 1.小尺度的同位功能概率数值普遍比大尺度的高
- 出现频数少的几类概率确实比较夸张,比如camera shop/CDDVD这种,考虑用z分数归一化一下,或者直接把这组数据删掉
- 2.看了比如说购物商场旁边的业态,确实比较清楚,也比较符合常识规律
- 之后可以分专题比较不同城市
- 3.对总平均值进行可视化,然后定筛选
- 不同级别城市大于1的链接关系个数
collapsed:: true
- 1级城市:14291 2级城市:13961 3级城市:13823 4级城市:14005 5级城市:14094 6级城市:14049 7级城市:14297 8级城市:14268 9级城市:14050 10级城市:14253 11级城市:14456 12级城市:13874 13级城市:14118 14级城市:12164 15级城市:10352
- 同类集聚的特点不够明显,特定小数量的poi容易出现高值集聚的特点
- 不同级别城市大于1的链接关系个数
collapsed:: true
- 4.对小尺度的比如800m以内的平均值进行可视化
- 1.小尺度的同位功能概率数值普遍比大尺度的高
-
和龙老师交流 #
- 龙老师的基本观点:如果是一个探索规律的文章,规律应该简洁优雅
-
对之前的结论进行可视化,并以北京二环内西北角举例做实验 #
- 操作:
- 选择二环西北角一处poi(大约10000个)
- poi内任意两点之间的距离小于500m的计数下来成为一个poi点对,这里计算使用geopandas的距离计算,为了加速加上了空间索引,查询距离它最近的3000个点来减少运算量,最终有17761039对(计算时间1h,这个数量和时间决定了这个不太好扩大计算量,数量是呈指数增长的如果计算6万个点就得有超过1亿对,需要更强的算力和存储)
- 用之前运算的poi类型之间的相互关系进行两组VLOOKUP,最终将每一个组对的colocation计算出来,colocation的赋值按照距离,原本200m网格的值被赋予距离小于100m的两个点之间,这里对下面所呈现的推导过程的值取了近似
collapsed:: true
- 用gephi作图,删除明显有问题的一两个点
- 结果如图,目前图密度千分之一,说明取的值都是很高的相关性,这里结果作图的参数是模块化社区取1.0(默认标准值)colocation取大于5
collapsed:: true
- 可能的发现
- 城市级别的功能簇群有着形态上的差异,这种形态差异和空间紧密相关
- 功能簇是有尺度的,是可以分出相对明晰的边界的(需要对gephi使用的模块化参数进行具体的描述)
- 功能簇是分类型的,这种类型体现在功能、形态、尺度上
- 这类功能簇对于分析城市大尺度上的功能结构可能有比较重要的意义
- 局限
- 目前对colocation的筛选值是5,这个筛选值取值为人工赋值,可能需要找点理由或多尝试一些值,筛选出的会更多是商业零售,对于公共服务设施带动的功能关系较难描述
- 同样的对于人活动造成的功能关系描述也有限
- 对于目前分成多少簇分多细的调节基于模块化的一个参数,需要进一步研究参数的实际意义
- 意识到的问题:
- 同类功能之间的colocation目前没有办法被计算,政府机构旁边往往也有政府机构这类的分析没有办法完成
- 可以进一步讨论同类poi之间的联系强弱,比如本次从图面效果上面贡献看到商业类的poi的平均度会高一些,这个可以在后续的研究进行补充
- 之前做的异类poi在不同城市之间的差异,现在可以考虑做同类城市之间的比较
- 操作:
-
0115幂律定律-本质是地理学第一定律的反映 #
- 今天尝试验证如下结论:距离越远,两个功能之间的吸引力就越弱,功能和功能之间的影响就越弱
- 基本道理:绝大部分功能满足这个规律,平均的回归R方值在0.7左右
- 有部分始终不遵循,显示出无规律或者反向的特点
- 有部分在左右横跳
- 绝大部分长期保持高位遵循幂律定律
-
关于方法有效性的探讨 #
- 目前的方法公式原则上是脱胎于CLQ,CLQ实际并未给出证明,只是说这是一个表征,其实际意义是共同在
- 并且补充论证了CLQ的最大值和随机分布的期望
-
基于文献的一些研究想法: #
Colocation - This article is part of a series.
Part : This Article