重回帰分析を理解するために知っておきたい7つの統計用語

aa

統計分析は、日常的に触れる機会も少なく、専門的に学んだ経験がない限りは、とっつきにくいものであることが実情です。

その中でも、分析手法の一つである「重回帰分析」は、他の手法に比べて直感的にその意味が理解しやすく、利用できる場面の幅も広いため、現実的に活用しやすいもののひとつです。しかし、それでも自分自身で正しく結果を読み解き、またそれを他の人に伝えるうえで、理解すべき最低限の用語がいくつかあります。

そこで今回は、そのなかでも最も重要な7つの統計用語について“結果を読むために必要な程度まで”重回帰分析について理解できるように解説をしたいと思います。

重回帰分析とは?

重回帰分析とは、あるデータを他の複数のデータによって予測する(ないしは説明する)「関係性の式」を作る分析手法のことです。この式を「重回帰式」と呼び、以下のような形で表現されます。

数式

重回帰分析についての基本的な考え方は図解で分かる重回帰分析〜「ざっくり」と理解する〜をご参照ください。

重回帰分析を理解するために必要な7つの用語

1:目的変数

他の変数によって「説明される」変数のこと。先ほどの重回帰式で言えば「=」の左側にある変数のことを指します。

目的変数

2:説明変数

目的変数を「説明する」変数のことであり、重回帰式の「=」の右側にあるものです。

説明変数

なお、「目的変数&説明変数」は、「被説明変数&説明変数」や「従属変数&独立変数」など、いくつかの呼び方がありますが、意味することは同じです。

3:係数

説明変数が目的変数にどの程度の影響を与えるかを表す数値で、係数が大きいほど影響は大きくなります。

係数

しかし、係数の大きさは説明変数のデータの単位によって影響を受けるため、同じ重回帰式の中でも、他の説明変数と影響力の大きさを比較することに使うことはできません。例えば、メートルのデータをセンチメートルに変えると、係数は100倍になってしまいます。

説明変数の影響の大きさを比較するには、後述するt値を用いることで代替できます。

4:定数項

定数項は、y切片とも呼ばれ、説明変数の変動に影響されない値のことを指します。

決定項

5:決定係数

重回帰式の精度を表す指標であり、目的変数の動きが説明変数によってどの程度説明できているのかを表している数値です。

100%に近づくほど精度が高いことを表します。R2とも表記され、重回帰分析の場合は「重決定係数」と呼ばれることもあります。

なお、決定係数は説明変数が増えると増加するという性質を持っています。しかし、これは見かけ上の精度が良くなるだけなので、自由度によって調整をした自由度調整済み決定係数を用いることもあります。

6:t値

重回帰分析において、t値はそれぞれの説明変数が目的変数に与える影響の大きさを表し、絶対値が大きいほど影響が強いことを意味します。なお、ひとつの目安としてt値の絶対値が2より小さい場合は統計的にはその説明変数は目的変数に影響しないと判断します。

7:p値

それぞれの説明変数の係数の有意確率を表します。一般的に、有意確率が5%を下回っているとその説明変数は目的変数に対して「関係性がある」という判断をします。

この記事を書いた人