您的当前位置:首页 >> 新闻详情

颜值大比拼,用数据告诉你中国哪里美女多?

2015-10-30

  这个被叫做”颜值调查”的互联网实验于4月29日晚上8点正式开放,截止5月4日24点,共有619位志愿者参与了活动,其中,地址和照片有效信息2413条。

从参与时间上看,29号晚上的短短4个小时以内,参与人数达到峰值的241人,上传照片717张;30号全天参与人数220人,共上传照片753张。劳动节当天仍有169位志愿者参加了活动,之后……大家就都出去玩了。(见下图)╮(╯▽╰)╭
数据可视化但从覆盖度上来看,结果还比较欣慰。其空间分布可见下图:
数据可视化数据可视化

可以看到,我们的志愿者遍布五大洲。没错,连南极洲也沦陷了!感谢在南极探险时也不忘分享颜值的朋友。

从全国覆盖度来看,可以得到下图:
数据可视化
具体来看,我大天朝除了澳门以外的所有省级行政区已经被志愿者们调查全部覆盖。上海、北京、广东、浙江的上传照片数多于100张,四川、香港、江苏超过50张,而在西藏和台湾只有一名志愿者。

嗯,好吧。现在我们可以非(hou)常(yan)郑(wu)重(chi)地宣布:本次实验非常成功!

然后,在成功但却略有一些不完美数据的基础上,我们得到了以下非常简单粗暴的结论:

一, 高颜值们在哪里出没?

从颜值在全国的空间分布来看,河北一举夺魁,台湾和甘肃紧随其后(这位台湾美眉真是凭一己之力为全岛争光呀);湖北和山东人民就长得比较抱歉了。这似乎说明,颜值与GDP、与是否沿海,没有什么关系啊…… 至于海外的志愿者颜值垫底这一点……虽然我们很想推翻“一等美女漂洋过海”的观点给国内广大男同胞以希望,但本着学(bu)术(fu)严(ze)谨(ren)的立场,我们还是认为仅有的9位海外志愿者样本并不能代表整体情况。(见下图)

数据可视化数据可视化

而从城市角度来看,在去掉照片样本数量少于5的地区以后,我们选出了颜值得分top5和bottom5的十个地级市。河北石家庄、浙江嘉兴、浙江湖州名列三甲,山东济南和安徽蚌埠屈居队列之末。
数据可视化
接下来,看看上海城市内部的颜值分布吧,请看下图:

数据可视化简单地说,复旦-同济-财大高校群、松江大学城、临港大学城的参与度都比较高,高校的妹子们明显拉高了附近街道的颜值。此外,陆家嘴也是高富帅白富美们的重要集散地。

然而,既然知道了高校是高颜值人群的高频率出没地区,那么让我们聚焦活动参与程度最高的几所高校来看看具体的分布吧,福利来了。

先看复旦大学。
数据可视化从图中可以看到,复旦的高颜值群体主要分布在研究生宿舍园区和第四教学楼(红色地区),在光华楼和五六教自习的同学就长得比较抱歉了(绿色地带)。各位同学请注意避让。

再来看一下邻居同济大学。
数据可视化从图中可以看到,同济的高颜值人群集中分布在南校区(电影学院所在地)和大学生活动中心(红色地区),而在图书馆和南北楼则均匀分布着低颜值的童鞋(绿色地区)。难道真的是好看的人都爱玩,人丑只能多读书吗?这个世界真是太残酷了TAT

我们再把视角切至帝都,来看一下北京大学。
数据可视化从图中可以看到,北大的高颜值密集地区非常明显,集中在左下角红色那一块。这里似乎是宿舍区-食堂区?果然北大的美女学霸们都醉心学术,只有在饭点和睡前才会偶尔掏出手机玩玩么?至于围绕着逸夫楼的和个别院系所形成的颜值洼地(绿色地带),我们也只能呵呵了。

整理完高颜值在空间上的分布现象,我们再来看时间上的特征。

二, 高颜值在哪个时间段出没?

与我们所预想的一致,工作日和节假日的颜值空间分布是不同的。本次实验期间,4月29日、4月30日和5月4日为工作日,5月1日~5月3日为节假日,正好可以找出不同的分布规律。

从全国层面来看,工作日颜值最高的是台湾、湖南、甘肃、重庆、广西,而节假日颜值最高的则是河北、黑龙江、江西、重庆、江西。嗯,去重庆总是没错的!(见下图)
数据可视化
而从颜值的变化幅度来看,云南、湖南两个旅游大省在节假日颜值暴增,江西、河北两个工业大省则颜值大跌。这难道说明,高颜值的人节假日都去旅游了,低颜值的人则更倾向于宅在家中?(见下图)

数据可视化
再具体到每个小时的话,请看下图:
数据可视化可以看到,在各个时段中,凌晨3点上传的照片得分是最高的。可以想象,帅哥美女们在这个时段往往最为活跃。除此之外,早上6点、下午2点和晚上9点也都是高颜值的集中爆发期。

为什么呢?早中晚各一次?难道吃饱了之后,高颜值人群才有兴趣上传照片么?

事实上,关于以上各种现象内在原因的阐述和演绎,我还没有整理出更清晰的逻辑线索,但无论如何,还是要再次郑重说明

关于高颜值的时空分布,由于样本有限且偏好明显,请大家参考以上结论时充分考虑再三思量。

当然,在这些不太靠谱的结论之外,我们还是有一些有趣的发现:

比如:48%的志愿者只上传了一次照片,45%上传了2~10张,7%的志愿者上传了10张以上。另外,一共有5位上传照片超过50张以上的志愿者,非常给力。(见下图)
数据可视化
再比如:从所有颜值得分的总量来看,颜值得分的频数为偏正态分布。无论从志愿者个人得分还是单张照片得分的统计情况来看,3分都是最常见的档位。从总体来看,大家的美丑分布还是比较均衡的。(见下图)
数据可视化

最后,出于对人性的好奇,我们还统计了每一个志愿者发布第一张照片的颜值得分与其参加活动总次数的关系,结果显示出得分的高低在志愿者活动参与度上具有显著的激励作用。请看下图:
数据可视化总体而言,由上图可以看到,第一张照片得到的分数越高,志愿者越乐意继续参与活动,拍摄上传更多的照片。

所以,我非常感激那些在本次试验中颜值得分总是为0,但仍然坚持不懈上传照片的小伙伴们。敢于自黑自嘲永不气馁并乐在其中的人都是真正自信的人。

大概就是这样吧。

———————————【以下是4月29日发布的原文】—————————————-
”XX哪里美女(帅哥)多“,这简直是人类的永恒话题。

比如在“百度知道”里搜索该类问题,即可看到:
数据可视化

当然,连知乎也不例外,随便搜索一下就可以看到:
上海哪里美女多? – 生活,成都哪里美女最多? – 调查类问题广州哪里美女多? – 广州市,西安哪里美女多? – 情感,武汉哪里美女多? – 城市,哪里美女多? – 女性,郑州哪里晚上美女多,想去看美女? – 郑州,北京和上海哪里美女多? – 城市,中国哪里帅哥多? – 男性,中国哪里的帅哥最多? – 社会,

而答案,总是五花八门争吵不下永无止境。

最近(其实也就是昨天),我们设计了一个基于互联网的小实验,希望能够借助这个实验,摸索出一个能够一劳永逸地回答并且终结此类问题的办法。给大家简单介绍一下吧:

这个实验可以被叫做:”颜值地图大调查“。实验方案非常简单:

我们请求志愿者发送自己或自己朋友的街拍照片到互联网的系统平台上,同时共享该照片的地理信息,然后系统平台会把照片匿名地发送给其他上传照片的志愿者进行评价。由此通过匿名互相评价的方式,系统将汇总照片的颜值分数,并将之落点到空间上,绘制出一张动态的”颜值地图“,这样大家通过这张地图便可以知道“哪里美女(帅哥)多”这个终极问题了。

—————————————实验报告的分割线——————————————————

一份”颜值调查”的互联网实验报告(Beta1.0)

昨天晚上8点,在前期几乎没有任何宣传的情况下,“颜值调查”功能在“城市数据团”微信公众号上正式上线,获得了志愿者们的热烈支持,在此深表感谢。现在向各位志愿者汇报一下“颜值调查”实验的初步成果及进展。

我们以四个小时(大概到当天夜里12点)为时间区段,抽选出有效照片(去除了猫狗植物景色的还有重复的照片等)约1000张,对该部分样本进行了初步分析。

具体结果如下:

一,选择样本在这个星球上的覆盖度,大概长这样:

数据可视化可以看到,大部分的照片是在国内进行上传的,海外的上传地则分布在欧洲、美国东海岸、以及澳大利亚。

二,选择样本在伟大祖国的覆盖度,大概长这样:
数据可视化可以看到,参加颜值调查活动的用户主要分布在上海和北京。但是宁夏、西藏、辽宁、吉林暂时还是空白,所以,请这四个地区的朋友们积极参加志愿者活动哦。

三,从样本照片的颜值平均数来看,全国的颜值分布大概长这样:
数据可视化可以看到,东南地区和西北地区形成了优势崛起,而中原和华南地区则出现了颜值的凹陷。

我们也可以从空间柱状图上看到这一特征:
数据可视化同样作为一线城市区域,北京和上海均有不少高颜值的地区,但珠三角的朋友还要加油,继续发掘高颜值的场所吧!

四,从样本照片的颜值差异度来看,各省的颜值评分差异大概长这样:
数据可视化颜色越深,说明该省内颜值评分的离散程度越高。因此,可以看到,黑龙江和陕西的小伙伴们在长相上差异较大、两极分化啊!

五,从样本照片的颜值评分来看,各省的得分大概长这样:
数据可视化可以看到,新疆是颜值最高的省份,高达4.5分。而云南暂时垫底,分值低于2分。同时也可以看到,大部分省份的颜值得分均维持在3左右,基本上达到“颜值及格”的水平。得分暂时落后的地区请加油哦!

回到城市层面,样本照片的颜值评分排名前十的城市大概长这样:
数据可视化了不起的巴中!了不起的川妹子啊!

而颜值调查排名后十位的城市大概长这样:
数据可视化可怜的晋中,可怜的山西娃啊!加油啊!

六,我们按照0~5分归类了将样本人数进行了归类,大概长这样:
数据可视化可以看到:大部分样本还是位于“基本及格”和“赏心悦目”两个区段。看来参与活动的大部分人长得还是不错的。

但是,假如我们从每张照片的评分差异度上来看,就长这样了:
数据可视化可以看到,在0分和5分这一档上,样本照片上基本上没什么太多争议度,而在2分这个区段上,评分方差则开始波动。简单地来说,对于颜值高低而言,越极端,认知越统一。

七,从志愿者的参与的热情度来看,大概长这样:
数据可视化可以看到,在样本照片背后的志愿者中,有49%的志愿者仅参与了一次调查,而34%的志愿者参与了2~4次。我们非常感激。

但是我们同样感激地看到,有大概十几个百分比的志愿者,是热情地满街跑着去给我们拍美女帅哥的。至于是哪几位拍了100张以上照片的志愿者,请你直接联系团支书,我们无论如何都必须送你一份表达我们真诚心意的礼物。

八,有趣的评论区,大概长这样:

由于我们在本次活动中设计了自助评论功能,志愿者可以在评分的同时表达自己对评价照片的看法。因此后台沉淀了各种有趣的评论反馈。

其中,在评论里高分值区和低分值区的高频词汇大概长这样:
数据可视化
而根据样本照片不同的分值档次细分的话,高词频大概长这样:
数据可视化

是的,假如希望颜值评分超过2~3分的话,请尽量不要拍的太模糊,注意灯光也不要太昏暗,更不要上传多人照片(免得大家不知道是评价谁)。而那些拍摄并上传动物的志愿者,事实上给我们后期筛选图片添加了很多工作量。在此衷心地希望您能克制自己热爱动物的情绪。

九,城市颜值地图示意:

以四个小时采集到的样本数据来看,昨夜魔都的城市颜值星空大概长这样:
数据可视化可以看到,大学区的颜值热度和评分都居高不下,看来志愿者们暂时还是在高校集聚,希望在接下来的五一假期中扩散开来。

而同样地,帝都昨夜的颜值星空长这样(这是我们第一次斗胆分析帝都):
数据可视化可以看到,除了海淀的学生们,连长安街上还有很多高颜值人群出没。这让我们异常欣喜。

十,总结:

由于样本数量有限,反应出的结果只是昨晚四个小时的局部时空信息。因此以上分析结果对中国真实的颜值分布并不具有全面的指导意义。

但该结果的解释性与参与人数和广度是相关的,因此请大家继续支持,也希望能够帮助我们扩大志愿者的队伍,发现和评论你身边人的颜值,一起绘制更真实的全国颜值地图,也为你所在地区的颜值攀升加把劲吧!

—————————————实验报告的分割线【完】——————————————————

从以上报告beta1.0版可以看到,由于初期样本数的限制,报告中呈现的结果和真实的情况应当还存在不少的差距,但这个差距可通过进一步扩大志愿者的范围来实现。但事实上,我们希望这个实验不仅仅是回答“XX哪里美女(帅哥)更多”的问题,而是能够给我们的城市带来更多。

城市是一场流动的盛宴,但我们现在所熟知的所有的传统地图,都只能静态地描绘它。你可以找到所有的建筑、街道、学校、机关、公厕甚至是树木。但是,你找不到人。

没有人的地图,都是没有生命的地图。但是如果借助互联网和大家的力量,也许我们就可以画出我们每一个城市的活的地图。

就是这样。