实践记录:中国历届奥运会奖牌排行榜总分析,我是怎么搞定这堆数据的?
最近我跟一个老哥聊天,他死活不信中国队的成绩是稳步提升的,总觉得奥运会成绩就跟股票似的,忽高忽低。他非说2008年北京奥运就是昙花一现,后头就不行了。我听着就来气,跟他扯皮不如直接拿数据说话,于是我决定自己动手,把从1984年洛杉矶奥运会开始,中国队拿过的所有奖牌,金的银的铜的,全给他扒拉出来,做个趋势分析图,看看到底是稳不稳。
第一次数据爬坑:定范围和找数据源
说干就干,我第一个跑去的就是几个官方体育网站。结果一看,头都大了。他们那个数据,是按届奥运会来的,每届一个榜单,而且重点都放在“金牌榜”上。我要的是总趋势,得把每一届的金牌、银牌、铜牌都抠出来,还得统一格式。
我先定下来,只看夏季奥运会,冬季奥运会那是另一个体系,得单独搞。从1984年开始,一直到最近的东京奥运。然后我就开始在网上翻找。找来找去,发现没有哪个网站能直接给我一个干净的表格,告诉我每一届具体的金银铜数量。大部分都是新闻报道或者只提供排名前几位的国家。
我3放弃了那些看起来很炫的数据库,直接跑去维基百科和几个国内的体育年鉴网站,对着历届奥运会的官方奖牌榜,一届一届地手动抄录。那感觉,就像回到了小学抄生字本,眼睛都要看瞎了。
手动整理数据和格式统一:抓狂的表格工作
我新建了一个Excel表格,起了个土名字叫“奥成绩单”。左边是年份/届数,中间三列是金牌、银牌、铜牌,最右边是总数。这个过程才是真正的挑战。
- 遇到大坑:很多早年的数据源,比如1984年和1988年的,数据统计方法有点差异,我必须把所有数据源交叉核对一遍,确保我抄下来的数字是准确无误的。
- 是统计口径问题:我必须统一计算方法,把金银铜加起来算总数,而不是只看金牌排名。有些网站会把奖牌总数直接列出来,但有些则没有,我得自己拉公式计算。
- 最让人抓狂的是合并:我把十几届奥运会的数据一个个填进去,填完后盯着屏幕上的数字,总觉得哪里不对劲,又得重新对照官网的数据对一遍。光是对格式和数字,我就耗了足足一个下午。
折腾完之后,我的这个“奥成绩单”总算是齐活了。这时候,数据就已经在我的手里了,接下来就是真正的分析。
趋势分析和数据说话,打脸老哥
我把表格里的总数那列拉了出来,然后用Excel的简单图表功能,做了一个折线图。这个图一出来,那感觉,太直观了,比我说一万句都有用。
我盯着那条折线图,发现它不是我那老哥说的“忽高忽低”。它确实在1984年起步后有一个小低谷(比如1988年汉城),但从1992年开始,曲线就稳步向上攀爬。2008年北京奥运会那一下,确实是一个惊人的高峰,但重要的是,你看后面的数据,即使离开了主场优势,我们的成绩曲线只是稍微回落,然后迅速在后面几届奥运会上企稳。
这个趋势图清晰地告诉我:中国队在奥运赛场上的整体实力,早就过了依赖爆发的阶段,已经进入了一个高位盘整期。虽然总金牌数偶尔波动,但奖牌总数一直在一个很高的水平线上,这说明了我们体育大国的地位是实打实的,不是靠运气或者单届比赛的刺激。
我把这个折线图截图,直接甩给了那老哥。他就回了一句:“行,你赢了,这数据确实不好反驳。” 实践出真知!这堆数据的整理过程虽然麻烦,但能得出这么一个明确的所有辛苦都值了。
标签: