ブログ

医療従事者のための医学統計学基礎part.1【平均・分散・標準偏差】


当ブログは骨格筋痛に対するアプローチに関する情報をまとめています。

施術者はそのための情報を集めるわけですが、経験論だけではトンデモ医療かどうかの判断がつきません。

また、自身の施術の信頼性を確かめることができません。

そのため情報収集の基礎として医学統計学が必要になってきます。

しかしながら統計学を医療系の学校教育で習うところは多いとはいえません。

当ブログでは統計学はコンピテンシーと考えています。

この情報爆発の起きた現代では、必須のスキルと考えています。

統計学の受け入れ難さとして、専門用語が分かりにくいというのが挙げられます。

統計学用語を調べたところで、さらに分からない言葉の羅列で結局分からないままとなるケースがあります。

統計学用語の定義というのは、元々統計学を知っている人間がより正確に理解するためにはつかえますが、新たに統計学を学ぼうとした人が見ても難しすぎるのです。

現在の高校の数学教育ではカリキュラムに統計学が導入されたおかげで、統計学の敷居が低くなりましたが、私も含め、高校で統計学がなかった世代には敷居が高いです。

さらに例え統計学を高校で習っていたとしても、その内容は基礎の基礎レベルであるため、例えば論文を読もうとしたところで理解することはできません。

ということでここでは医療統計学基礎として、医学論文で頻出する統計学の基礎を簡単にまとめていきます。

 

統計学とは

統計学はある現象の規則性だったり、不規則性を知ろうとする学問です。

不確実な情報の確からしさを求めることができます。

身長を例にするのであれば、経験的にこれくらいが平均とはなんとなく分かっていても、実際多くの人を集めてなくてはその確証を得られません。

平均体重となると、より不確実ではないでしょうか?

統計学はこのような不確かなことがらをより明確にすることができます。

統計学は経験の誤りを正すことができます。

統計学を学ぶことで、経験主義・感覚主義がどれだけ危ういか、そして人の確率に対する認知能力がどれだけ低いのかを理解できます。

 

平均とは?

まずは中学でも(小学校?)習った平均です。(普通科高校でも習います)

英語ではmeanといいます。平均値はmean valueです。

平均値は複数の数値に対して、個々を全て足し合わせた後、数値の個数で割った値のことを指します。

具体的を見ていきます。

計算しやすいようにサンプル数を3人にします。

3人の平均身長は

  • Aさんは160cm
  • Bさんは170cm
  • Cさんは180cm

平均値はこれらの総和を人数で割った数なので

(160+170+180)÷3=170

つまり平均170cmとなります。

この平均170cmは日本人の平均でも世界の平均でもなく、この3人の平均です。

日本人の平均身長を考えるときに、この3人を参考にしても信頼はできないわけです。

これがサンプルが少ないと信頼できない理由であり、個人の経験談はしばしば間違って認識されている理由ですね。

次に平均値の文字式について解説します。

この計算(160+170+180)÷3=170を文字式に置き換えます。

これら一人一人の身長をxとします。

1人目はx12人目はx23人目はx3とします。

そうすると式は

(x1+x2+x3)÷3=となります。

これは人数が増えても同じです。

人数がn人の場合

(x1+x2+x3…+xn)÷n=となります。

x1からxn番目まで足して、その人数(n)で割っています。

式を最もシンプルにします。

ここを理解することで、後後出てくる標準偏差などの言葉を理解しやすくなるので今のうちにやっておきます。

数式を出すとこんな感じです。

nはサンプル数です。ここで言えば3人なのでn=3です。

iは何番目のデータなのかを示します。

例えばi=1なら1番目のデータ、つまりAさんの160です。

Σは総和記号なので与えられた条件を全部足しなさいという意味です。

つまり足し算の記号です。

ここではの下にi=1、上にはnが付いています。

これはi=1(1番目の数値)からn(サンプルの最後)まで足しなさいと言う意味です。

何を足すのかといえばの右にあるxiをです。

xiは何番目の数値かを表しています。

例えばi=1、つまりx11番目の数値、“160”

i=2、つまりx22番目の数値、“170”

x33番目の数値、“180″が入ります。

これらをまとめると、この数式の意味は

i=1(1番目の数値)からn(最後)までの数値を∑(足す)しなさい。

つまり

平均値=(x1+x2+x3)/3

となり、

実際の数値を当てはめるとこのようになります。

平均値=(160+170+180)/3

 

ばらつきとは?

ばらつきとは、各数値がどれだけ離れているかを意味します。

例えば

9,10,110,10,20を比べると0,10,20の方が比較的離れた数値です。

どちらも平均は10ですが、これらを同じものと考えるのはおかしいですよね。

臨床に置き換えてみます。

ストレッチの可動域に対する効果性が

  • Aさんでは0
  • Bさんでは10
  • Cさんでは20

となっているのであれば、ストレッチの効果性がイマイチ不明瞭です。

  • Dさんは9
  • Eさんは10
  • Fさんは11

の方が(サンプル数が少ないことに目を瞑れば)10度の変化の確実性が高いです。

ということでこのばらつきは統計学によく出る重要な概念です。

最近の高校生は数学で習っているようです。

それでこのばらつきを表す方法っていうのがいくつかあるのですが、最も論文を読んで見かけるのが標準偏差(ひょうじゅんへんさ)です。

ここでは基礎なので標準偏差と、標準偏差を理解するために必要な分散(ぶんさん)を紹介します。

 

分散とは

分散は英語ではvarianceと表記します。

分散はデータのばらつきを表します。

まずは先ほどと同じ様に文字式なしで解説します。

分散は

サンプルの数値から平均を引いて、2乗した数の総和を平均した数です。

先程の例を用います。

  • Aさんでは0
  • Bさんでは10
  • Cさんでは20度
  • 平均10度

です。

まず、サンプルの数値から平均を引くので

0-10=-10

10-10=0

20-10=10

となります。この数値を偏差と呼びます。

次にこれらを2乗します。

-10^2=100

0^2=0

10^2=100

(^22乗を意味しています)

この数値を偏差平方といいます。

これらを足します。

100+0+100=200

この数値を偏差平方和といいます。

サンプル数が3()なので2003で割ります。

200÷366.6となります。(ここでは四捨五入ではなく切り捨てしています。)

つまりこの時の分散は約66.6です。

因みに、

  • Dさんは9
  • Eさんは10
  • Fさんは11
  • 平均10

で分散を計算すると1となります。

導き出された166.6はデータのばらつきの差がある事を表しています。

しかしながら、分散は66.6の様に数値がかなり大きくなってしまうため、直感的にどれだけのばらつきがあるか理解しにくいです。

その問題を解決するのが次に出てくる標準偏差です。

標準偏差の前に平均同様分散も文字式で表してみます。

ぱっと見、複雑そうですが、さっきの平均値の式2箇所付け足しただけなのでかなりシンプルです。

あるデータ(xi)から平均を引いてそれを2(^2)しなさいという意味です。

つまり

Σの下にはi=1Σの上にはnがあるので、i=1(最初の数値)からn(最後の数値)までを(xi-mean)^2してΣ(全て足し)し、1/n(サンプル数で割り)しなさい。

となります。

 

標準偏差とは?

標準偏差は分散と同じようにばらつきを表しますが、分散よりも数値の大きさが小さいためわかりやすいです。

標準偏差は英語ではstandard deviationといい、SDと表記されます。

例えばmean(SD)=10(2)と表記されていれば、平均は10で標準偏差は2となります。

標準偏差はシンプルで分散の平方根です。

分散では各データを2乗していたので、単にそれを平方根で数値の大きさを戻しただけです。

つまり文字式はこうなります。

実際例をだすと、先程の例では

  • Aさん0
  • Bさん10
  • Cさん20
  • 平均10
  • 分散66.6

だったので、この66の平方根、√66.68.2となります。

そのためA,B,Cさんのストレッチによる可動域の上昇はmean(SD)=10(8.2)となります。

つまり可動域は10度向上するけど8度くらいはばらつきますよ!という意味になります。

 

言い方を変えると平均からのばらつきの平均が標準偏差ともいえます。

ということで、

医療統計学基礎part1は平均、分散、標準偏差でした。

part2はこちら

医療従事者のための医療統計学基礎part.2【平均値と最頻値、中央値そして四分位範囲/四分位偏差】前回平均値(mean value)について書きました。 http://exe-box.com/statistical/ 平均値に似た...