在數據分析中,對于一個龐大的數據集,我們無法對其中的所有數據進行分析,這個時候可以選取合適的指標來反映這個數據集的特征。最常用的指標就是平均數,也可以用它對不同數據集進行比較。統計學上的平均數有數值平均數和位置平均數,日常應用中多以“平均數”指代數值平均數,而把位置平均稱為“中位數”。
平均數的計算方法
設一組數據為 X1, X2,...,Xn,簡單算術平均數的計算公式為:
中位數的計算方法
將一組數據進行排序,如果數據的個數是奇數,則中間那個數據就是這群數據的中位數;如果數據的個數是偶數,則中間兩個數據的算術平均值就是這群數據的中位數。
平均數與中位數的特點
在實際應用中,平均數容易受到一些極端值的影響。比如一個品牌有5家門店,某日這些店鋪的業績分別是 1100,1000,1300,1200,10000。這個時候,5家門店業績的中位數為1200,而平均業績則是2920。如果第二天,最高業績的店鋪下降為5000,這些店鋪的業績中位數仍然為1200,而平均業績則下降到1920,下降幅度超過30%。
當然,中位數也有它的局限性,同樣以前面的例子來說,業績最高的店鋪業績已經下降了,但是中位數仍然不變,說明中位數在評估總量和結構方面不太擅長,如果我們想了解數據集總量的變化,應該采用平均值更為合適。
平均數和中位數的應用
平均數和中位數除了前面介紹的特別,我們還可以進一步深挖,結合平均數和中位數兩個指標對整體數據做一個評估。平均數、中位數與數據集的分布有如下的關系:
1)當數列是正態分布, 中位數與平均數具有相同的值;
2)當數列是正偏態分布,中位數位于平均數的左側, 小于平均數;
3)當數列是負偏態分布時,中位數位于平均數的右側,大于平均數。
可以用圖表表示如下:
正偏態分布指在一個不對稱或偏斜的分布中,分布的高峰偏左,而長尾則從左側逐漸延伸于右端。以連鎖品牌的店鋪業績為例,若店鋪業績的數據集呈正偏態分布,則表明大部分店鋪業績都小于平均業績,業績較好的店鋪為品牌貢獻了大部分的業績。
負偏態分布指在一個不對稱或偏斜的分布中,分布的高峰偏右,而長尾則從右側逐漸延伸于左端。以連鎖品牌的店鋪業績為例,若店鋪業績的數據集呈負偏態分布,則表明大部分店鋪業績都高于平均業績,業績較差的店鋪對品牌的拖累效果較為明顯,這個時候需要重點分析這些績差店鋪的問題在哪里。
,