油耗排行榜的背后

微信号启动了,一直在想写什么作为第一期内容,是做一个排行榜还是写一篇隆重的启动欢迎辞?认真琢磨了一下,这个号叫油耗排行榜,未来的内容也少不了各种油耗排行榜,有必要把怎样生成各种排行榜,排行榜背后的一些依据给各位新老朋友交待清楚。
油耗排行榜是一个热门话题,搞排行榜的也不只是小熊油耗一家,各家排行榜数据有不一致几乎是必然的,哪家数据更可靠,更有公信力,关键还是要看排行榜背后的数据基础。
目前网络油耗排行榜的数据来源大致分为以下几种方式:
1.基于工信部油耗数据
这个就不多说了,地球人都知道,基于工信部数据的排行榜我们可以和“欢乐表”一样称之为“欢乐榜”吧!
2.基于机构自己组织的测试
机构自己组织测试,设计严谨的测试方案,然后依据实际测试结果进行排行,表面上看还是很公允的,但是面临的问题也不少。
一个问题是覆盖车型范围,中国市场一年新车车型上千,自己组织测试一般只能覆盖相对热门的车型。
第二个问题是测试环境,一直追小熊油耗微信号的读者都知道,不同的环境温度因素对油耗的影响是很大的,除非测试地点选择诸如昆明这样的城市,在其他地方组织测试都必不可少的要受四季温度变化的影响,不同条件下的测试结果进行对比排行,那就有点不太公平了。
第三自己组织测试都是要靠人来完成的,只要涉及人的因素就可能产生误差。
3.基于用户上报数据
采用这种方式的有汽车论坛,OBD厂商和小熊油耗,汽车论坛的用户上报不多说,即便是经过认证的车主数据,也大多只是车主某个行程或者某个时间区段的油耗数据,不具有进行数据分析的价值。
OBD厂商也可以通过OBD采集每辆车的油耗数据,这种方法确实可以跟踪比较详细的油耗情况,但是目前基于OBD数据的排行榜也存在两个问题,一是OBD估算油耗的依据和准确性,二是OBD数据的样本量,目前为止还没有听说哪家OBD厂商活跃车主数量在20万以上。
综合来看,小熊油耗是目前最可信的油耗排行榜数据来源,其一小熊油耗统计每位车主的油耗是目前理论上最准确的方法,没有之一,就是根据实际加油量和行驶里程计算的。其二,小熊油耗的车主样本量是目前所有方式中最多的,可用统计样本已经接近百万。
当然,小熊油耗也自己的问题,咱们慢慢道来。

前面已经提到,和其他机构的油耗排行榜相比,小熊油耗每位车主的油耗基础数据是最为准确的。
车主油耗=加油量/行驶里程
当然,车主之间还有差异,比如有些车主已经使用小熊油耗好多年,他的统计里程有数万公里;有些车主才刚刚使用小熊油耗,他的统计里程才几百公里。统计里程长的车主数据当然更可靠,我们在进行统计处理的时候也考虑了这个因素。
不管怎样,每辆车的实际油耗数据都是基于实际耗油量和行驶里程计算的,这是做排行榜最基础最扎实的数据。
小熊油耗的车主实际油耗是车主自己填报计算出来的,这里面当然会存在一些用户不太熟悉软件的时候犯点小错误,或者个别用户喜欢搞搞恶作剧,这是小熊油耗的数据不可避免的,所以我们需要用统计学的方法去剔除一些异常数据。
每个车型的不同车主油耗是千变万化的,我们看到过某机构出了这样一个漂亮的正态分布图

完美的对称,是很好看,只可惜和实际情况是有偏差的。大家都知道,一辆车的油耗往高走是有各种可能的,但是油耗往低走是有极限的。一个平均油耗8的车型,开到11,12的有大把人在,甚至13以上也都可能;但是往下走,能开到5的就很少,到4基本就是不可能了。
所以,我们过滤异常油耗数据的方法采用了非对称方法,以最大可能的剔除各种异常数据,保留正常数据。

这个图虽然没有上面那个好看,但是想想它是代表了最真实的情况,这个才是我们应该要的。
之前,我们也多次提过,小熊油耗异常数据的剔除比例接近8%,也就是说有近10万车主的油耗数据被排除在统计之外,虽然损失了这么多样本,但是为了给大家一个更为准确可靠的参考数据,我们认为值!
最近,也看到论坛上质疑说发现了部分车型存在人为刷数据的行为。我们也特地进行了核实,目前看无论是从车主样本增长数量,车主地域分布和车辆统计里程方面都没有发现异常。当然这也提醒我们,准备好应对措施,避免未来可能会发生的刷数据行为。
从车主的油耗数据经过统计分析处理后到车型的油耗数据,最后才是大家看到的排行榜。
排行榜的角度也是一个仁者见仁智者见智的话题,车辆的属性很多,几乎从每个角度都可以生成一个不一样的排行榜,比如最常见的
排量
车辆类型
价格
车重
发动机类型
燃料类型
等等,还有很多,只要有数据,生成几十个汽车油耗排行榜基本就是分分钟的事儿。
目前,我们的排行榜主要采用了两个维度,第一基于车价,第二基于车辆类型,在每个维度之下,您还可以通过设置燃料类型,发动机类型和变速箱类型进行过滤筛选。

我们知道,这些还远远不能满足大家的要求,未来我们会根据大家的需求不断调整,就算是一些很个性的要求,我们也可以通过专题文章的形式来从各个角度为大家展示各种五花八门多姿多彩的油耗排行榜。
能玩出什么花儿来,除了我们的努力,也看您能提出什么样的创意!
最后这一部分,我们打算专门说一说小熊油耗排行榜还存在的问题以及我们打算怎么进一步优化解决。
一些细心的朋友可能会发现,小熊油耗里面的车型油耗数据是变化的。这也是必然的,不断的有新的车主使用小熊油耗,我们肯定也会逐步把他们的数据纳入统计,同时已有车主的油耗数据变化也会造成车型油耗数据的变化,综合这些因素,变化是难以避免的。
这种不停地变化会给大家造成一些困扰,数据变来变去的排行榜还靠谱吗?确实,作为排行榜总是变来变去有点不应该,但是我们也观察过,数据的变化对榜单的影响不大,不会出现原来统计省油的车突然变得费油了或者原来费油的突然变得省油了,当然作为参考相近的排名大家可以认为水平相近,不必纠结于几个名次的差异。
可以不变吗,目前来看这个确实有点难,我们也在研究能否有更科学的方法,使每个车型的油耗数据更稳定,但是在没有更好的方法之前,我们的选择是尊重真实数据,车友数据是怎样的,我们就怎样展示。
另外一个问题是每个车型的参考车友数量,目前我们选择进入排行榜的车型统计车友数量都必须在20以上。我们做出这个选择也是有一定依据的,根据我们长期跟踪分析,样本数在20以上时,车型油耗的波动率有95%的可能性在3%以下,虽然还不是很完美,但是我们认为这个已经比某些机构的测试更靠谱了。
最后,再说一下很多论坛资深坛友经常会讨论的问题,“不提车速谈油耗就是耍流氓”,对于这个问题我们的看法是,其一车速肯定不是油耗的唯一决定因素, ·其二小熊油耗的车主油耗数据是每位车主综合用车情况的汇总,一定数量的不同用车习惯的车主数据放在一起,在这种数据统计的条件下,和讨论特定车主特定行程的油耗是不一样的,所谓平均速度的说法是不适合这个场景的。
总之,我们可以大胆地说虽然存在这样那样的问题,小熊油耗的排行榜仍然是目前国内所有油耗排行榜中最具有参考价值的,我们也在不断努力把这个事情做得更靠谱。
