未分類

医療従事者のための医療統計学基礎part.2【平均値と最頻値、中央値そして四分位範囲/四分位偏差】


前回平均値(mean value)について書きました。

医療従事者のための医学統計学基礎part.1【平均・分散・標準偏差】当ブログは骨格筋痛に対するアプローチに関する情報をまとめています。 施術者はそのための情報を集めるわけですが、経験論だけではトンデモ医...

平均値に似たものに最頻値(mode)と中央値(Median)があり、これらの違いを理解していないと、誤った認識を生みかねません。

特に中央値は平均値ほどではないにせよ、論文ではよく見かけます。

平均値と最頻値と中央値

まずこの平均値と最頻値と中央値の違いを大雑把にいうと、

平均値が「すべての数字を足して、個数で割ったもの」

最頻値が「一番、個数が多いもの」

中央値が「数値を並べたときに真ん中にくるもの」

となります。

身長を例にしてみます。

ここでは大雑把に日本人の平均身長を170cmとします。

身長170cmの人が多く、170cmから離れた身長の人が少なくなります。

平均から+30cmある200cmの人は多くはみかけないですし、反対に平均から-30cm140cmの人もあまりみかけません。

そのため、人数と身長の関係をグラフに表すとこのようにベル🔔のような形になります。

そのためこのような曲線をベルカーブと呼びます。

ではこの場合の最頻値はどこでしょうか?

もっとも数が多いのは170cmなので最頻値も平均とイコールになります。

では中央値はどうでしょうか?

後後詳しく説明する(正規分布のところで)ことになりますが、この様なベルカーブの時、最低身長から最高身長まで並べた場合、身長では真ん中くるのは170cmになるため、平均とイコールになります。

つまり身長で考えれば平均値も最頻値も中央値もイコールの関係になります。

しかし、イコールにならないものもあります。

よく挙げられる例は年収です。

平均年収は大体400万くらいですが、全員の中心となる人の年収、つまり中央値は350万ほどです。

さらにもっとも数が多い年収、つまり最頻値は300万ほどです。

なぜこんな差が生まれるかは、身長同様にグラフをみればわかります。

身長はベルカーブを描く平均値から左右非対称の綺麗な曲線でしたが、年収は歪んだ曲線になります。

年収グラフの場合は高収入の人の年収が平均から離れすぎていて、平均年収を釣り上げてしまっています。

そのため、平均年収を一般的なサラリーマンの年収だと勘違いすると、平均年収高すぎ!となるわけです。

では、医療論文ではどんな時に中央値が使われるのでしょう。(最頻値はあまり使われません)

中央値の使いどき

中央値が使われるのは、ベルカーブが歪められるような極端な数値が含まれる時です。

例えばある研究で、参加者の年齢が

10代が多く、90歳の高齢者が混じっていたとします。

この研究で参加者の平均年齢を記載すると、場合によっては平均年齢30歳や40歳のように、中央値からかなり外れてしまうことになります。

この高齢者のように他の数値から極端に離れているものを「外れ値」といいます。

外れ値がある場合やベルカーブ(後々解説する正規分布)でない場合、平均値を使うことが不適切になります。

平均値は外れ値に左右されますが、中央値は外れ値に左右されないため、このような場合に中央値が用いられます。

四分位範囲と四分位偏差

ここまでタイトルの四分位範囲(しぶんいはんい)について全く触れてきませんでした。

平均値の時は、ばらつきを表すときに標準偏差を用いていました。

中央値でばらつきを表すときは四分位範囲/四分位偏差を用います。

標準偏差より簡単な概念だと思います。

四分という名前が付く通りサンプルを4分割します。

中央値がサンプルを小さい順に並べた真ん中の値です。

まず中央値でサンプルを半分に分け、その半分になったサンプルをさらに半分に分けます。

これで4分割されます。

この分割される数値を四分位数といい、小さい方から第一四分位数、第二四分位数(中央値)、第三四分位数といいます。

四分位範囲の求め方は第三四分位数第一四分位数で求められます。

また、四分位偏差は四分位範囲を1/2することで求められます。

例えば、10,20,30,40,50,60,70のデータの場合中央値は真ん中の40になります。

 

中央値を中心に左右を半分に分けると、第一分位数が20、第三分位数が60となります。

四分位範囲は60-2040となります。

四分位偏差はさらに2で割り20となります。

part.3はこちら

医療従事者のための医学統計学基礎part.3【度数分布表・ヒストグラム・確率分布・正規分布】ここでは、度数分布表、ヒストグラム、確率分布、正規分布を解説します。 標準偏差を理解していないと分からない内容なので、まだ標準偏差を理...