ここでは統計で利用される用語について解説します。
(1) 母集団: 調べる対象となる数値の列(集団全体)。正規分布をしていることが望ましく、必要な場合は正規性があるかを調べる必要があります。
(2) 標本:母集団から選ばれたデータ(部分集合)。選ぶときに偏りがあってはいけません。これを無作為抽出法と呼びます。原則、標本の分布は母集団の分布と一致すると仮定され、標本から推定される結果と母集団から推定される結果は一致すると考えています。つまり母集団が正規分布をしているのであれば、無作為抽出された標本も正規分布してると考えます。つまり無作為抽出した標本の性質を調べれば母集団の性質がわかります。このことは統計の基礎になる重要な考え方です。
(3) 尺度水準:サンプルデータには、名義尺度, 順序尺度、間隔尺度、(比率尺度)などがある。(wikipediaの尺度水準を参照)
名義尺度:名前を対象に割り振ったもので、例としては性別、病名、職業、背番号、系統番号などがある。
順序尺度:順序には意味がある量であり、一般には順位がある。たとえ計測した値であってもその値そのものを利用はできないがその値の大きい小さいは比較できる。VAS(visual analog scale)や、アンケートの集計値などがある。
間隔尺度:等間隔の目盛りで計測でき、任意の原点があるデータ。カレンダーの日付、温度(℃)などがあり、一対のデータの差の計算や、平均値をとることができる。温度などを例にすると、1℃と10℃の差は、比率自体は意味が無い(線形性がない)。
比率尺度(比尺度):間隔尺度のデータうち、ユニークな0点(原点)からの数値として規定できるもので、物理量に多く、質量、長さ、絶対温度などがある。算術平均が利用できる。その他に逆数の和などの調和平均などを利用することができる。(比尺度の統計的特性についてはwikipedia等を参照)
(4) パラメトリック検定とノンパラメトリック検定:
パラメトリック検定:間隔尺度のデータを扱う検定 (2群の比較ではt検定を利用)
ノンパラメトリック検定:間隔尺度以外の尺度で得られたデータの検定 (2群データの比較の場合はWilcoxon検定(対応のある2群)やMann-Whitney検定(対応のない2群)などが利用され、その他に偏りを調べるカイ2乗(χ2)検定などがある)
* パラメトリックデータでも分散が正規分布に従わないデータの場合はノンパラメトリック検定を選択します。
(5) 平均値[関数:AVERAGE]:標本の数値の代表値の一つ。数値全体の合計を標本数で除した値。
平均値=(x1+x1+x2+x3+・・・+xn)/n
このほかに中央値[関数:MEDIAN]や最頻値[関数:MODE]があります。中央値はデータを小さい順に並べたときの中央にある値を示し、最頻値はデータの中に最も多く出現する数値を示します。
(6) 分散:データのばらつきを示す値で、各数値の平均値からの差の2乗の合計 (={(平均値-値(x1))^2+(平均値-値(x2))^2+(平均値-値(x3))^2+・・・+(平均値-値(xn))^2}/n で計算される)
(7) 標準偏差[関数:STDEV]:標本の数値の一つ一つが平均値からどれくらい離れているかを知る指標で、分散の平方根から求められる。
※標準偏差の関数にはSTDEV, STDEV.P, STDEV.Sなどがあります。EXCELの説明は以下のうよに書かれています。
STDEV(STDEV.S): 標本に基づいて予測した標準偏差を返します。(分散をn-1で除している)
STDEV.P: 引数を母集団全体であると見なして、母集団の標準偏差を返します。(分散をnで除している)
(8) 帰無仮説:統計で利用される仮定(命題)でその仮設の成立する確率が基準(危険率)よりも小さいことで否定することで仮説の反対が正しいことを調べる。
例:”今日は夕焼けがきれいなので明日は晴れだ。”という命題に対して、”今日は夕焼だから明日は雨だ”(帰無仮説)の確率を計算します。過去の天気の統計からこの”今日は夕焼けだから明日は雨だ”という命題を確率が低いので否定できると判断します。
これで、”今日は夕焼けがきれいなので明日は晴れだ”が正しいとすることができます。
*統計データはないが、wikipediaの夕焼け参照
(9) 対立仮説: 帰無仮説を立てる最初のきっかけとなる仮説。上の説明では”今日は夕焼けだから明日は晴れだ”が対立仮説です。
(10) 正規分布:正規分布(ガウス分布)は”自然界に存在する掟”みたいなモノです。例えば砂粒を紙の上に落としていくと、中心が多く回りは少なくなります。1m程度離れればもっと散らばります。この時の砂粒の分布が正規分布を表しています。多くの人の身長や体重などを調べると平均の回りに分散があります。この分散は正規分布といわれ、正規性を持っています。また、鉛筆の太さを正確に測ろうとすると何度も測って平均しますが、この誤差が正規分布をしているはずです。
(11) 正規性の検定:母集団や標本が適正なら正規分布をするはずです。この正規分布をしているかどうかを検定することを指します。2群のパラメトリックなデータでも、データに正規性がない場合はノンパラメトリック検定を利用することができます。正規性の検定については他の資料を参照してください(少し込み入っていますので中級者向けです)。
(12) 誤差とその範囲:誤差には2種類あると考えられます。自然に生じる測定誤差(偶然誤差)は正規分布をしており、その分散は予想できます。しかし、物差しが歪んでいて正しい値からずれる場合は(統計誤差)となります。
(13) 自由度:簡易適には標本数から平均値の数を引いた値で示さされます。2群の対応のある検定ではn-1となり、2群の対応のない検定ではn-2です。標本から母集団の分散を推定する時に利用されます。(*母集団と標本の平均値が等しいとして、この平均値とn個の標本があるとき、n-1個の標本が自由な値を持つことができますが、平均値とn-1個の値から最後の1個の値は決定されます。従って自由度はn-1となります。)
(14) 相関係数:相関係数(wikipedia参照)は2つの変数の間の相関(類似性)を示す統計学的指標であり、rで表され、-1(負の相関)から1(正の相関)の間の実数で示されます。相関係数は順序尺度です。従って係数の大きさを定量的に比較することはできません。
表計算ソフトを用いて2変数の散布図を作成し、トレンド線(あるいは近似直線)を引き、オプションで相関係数r2を計算してくれます。相関係数の検定も参考にして下さい。
(15) 感度[疫学]: スクリーニングによって病気を判定できる確率。(陽性患者数/陽性人数)
(16) 特異度[疫学]: スクリーニングによって健康な人を健康と判定できる確率。(陰性健康者数/陰性者数)
(17) 陽性的中率[疫学: スクリーニングによって陽性反応を示した中で病気である確率。(陽性反応的中度とも呼ぶ) (陽性患者数/陽性者数)
(18) 陰性的中率[疫学]:スクリーニングで陰性反応を示した中の健康な確率。(陰性健康者数/陰性者数)
(19) スクリーニング[疫学]:迅速に適用できる試験・検査。本人が認識していない疾患や欠陥を識別すること。
(20) 有病率[疫学]: 人口中(集団中)のある病気の罹患者の割合。(患者数/人口)
その他の用語に関してはここ(統計局の基本用語集)を参考にしてください。