前回の振り返り:特徴量の生成
前回は、データから新しい情報を引き出すための特徴量生成について学びました。データの数学的操作やカテゴリデータのエンコード、日付データの分解など、さまざまな手法を活用して、モデルの性能を向上させるための新しい特徴を作り出すことが重要でした。
今回は、生成した特徴量同士や目的変数との相関関係を調べるための手法、つまり相関分析について解説します。相関分析を行うことで、どの特徴量が予測に強く影響しているかを理解し、データの本質をより深く把握することができます。
相関分析とは?
相関分析(Correlation Analysis)は、2つ以上の変数の関係性を調べる手法です。相関が強い変数同士は、お互いに関連して変動することが多く、特定の変数の変化が他の変数に影響を与えている可能性が高いと判断できます。
例えで理解する相関分析
相関分析は「気温とアイスクリームの売上の関係」を調べることに例えられます。気温が高くなるとアイスクリームの売上が増えるという関係があるように、データの変数同士にも似たような関係がある場合、これを数値で表現することが相関分析です。
相関係数
相関の強さや方向性を数値で示す指標が相関係数です。相関係数は-1から1の範囲を取り、値が大きいほど相関が強いことを示します。
- 1: 完全な正の相関(片方が増えるともう片方も増える)
- 0: 相関なし(2つの変数に関係がない)
- -1: 完全な負の相関(片方が増えるともう片方が減る)
相関係数の具体例
変数A | 変数B |
---|---|
1 | 2 |
2 | 4 |
3 | 6 |
4 | 8 |
上記のようなデータでは、変数Aと変数Bは完全に正の相関を持ち、相関係数は1となります。
逆に、変数Aと変数Bのデータが逆の関係にある場合(片方が増えるともう片方が減る)、相関係数は-1に近づきます。
相関の可視化
相関分析では、相関係数の数値だけでなく、相関行列や散布図などを使って視覚的にデータの関係性を理解することが重要です。
相関行列
相関行列は、データセットの各変数間の相関係数を行列形式で表したものです。これにより、どの変数同士が強い相関を持つかが一目でわかります。
例えば、以下のようなデータセットにおける相関行列があるとします:
変数A | 変数B | 変数C |
---|---|---|
1 | 2 | 5 |
2 | 4 | 7 |
3 | 6 | 8 |
4 | 8 | 9 |
このデータの相関行列は次のようになります:
変数A | 変数B | 変数C | |
---|---|---|---|
変数A | 1.0 | 1.0 | 0.95 |
変数B | 1.0 | 1.0 | 0.93 |
変数C | 0.95 | 0.93 | 1.0 |
散布図
散布図は、2つの変数の関係を視覚的に表すグラフです。点の分布を見て、2つの変数がどのように関連しているかを直感的に理解できます。
例えで理解する相関行列と散布図
相関行列は「クラス全員の身長と体重の関係を一度に把握する一覧表」のようなものです。一方、散布図は「個々の生徒の身長と体重の関係を点で表すグラフ」に例えられます。相関行列では全体の傾向を把握し、散布図でより具体的な個々の関係を確認できます。
Pearsonの相関係数とSpearmanの順位相関
相関係数を計算する方法にはいくつかありますが、ここでは代表的な2つの手法を紹介します。
Pearsonの相関係数
Pearsonの相関係数は、データが線形関係にある場合に適用される指標です。数値データの相関を測る際に最も一般的に使われます。データが正規分布に近い場合、この相関係数が最も有効です。
Spearmanの順位相関係数
一方で、Spearmanの順位相関係数は、データが必ずしも線形関係ではない場合や、カテゴリデータの相関を調べる際に有効です。順位相関は、データの「順位」に基づいて相関を計算するため、外れ値に強いという特徴があります。
例えで理解するPearsonとSpearman
Pearsonの相関係数は「まっすぐな道を歩く距離と時間の関係」を調べるようなもので、線形的な関係を測定します。Spearmanの相関係数は「山道を歩く距離と時間の関係」に例えられ、データの関係がまっすぐでない場合でも、順位に基づいて相関を計測します。
相関分析の注意点
相関分析を行う際には、いくつかの注意点があります。
1. 相関は因果関係を示さない
相関関係は変数同士の関連性を示しますが、必ずしも因果関係を意味するわけではありません。例えば、アイスクリームの売上と溺れる事故の件数に相関があるかもしれませんが、それは「夏に両方が増える」という共通の要因によるもので、アイスクリームの売上が事故を引き起こしているわけではありません。
2. 外れ値に注意
外れ値があると、相関係数が大きく歪む可能性があります。特に、Pearsonの相関係数は外れ値に敏感なので、事前にデータの分布や外れ値を確認することが重要です。
3. 線形関係に限らない
Pearsonの相関係数は、線形関係を前提としていますが、非線形な関係では正しく相関を測定できません。非線形な関係を持つデータには、Spearmanの順位相関や他の手法を検討しましょう。
まとめ
今回は、データ間の関連性を調べる相関分析について学びました。相関係数を用いて変数同士の関係性を数値化し、相関行列や散布図で視覚的に理解することが重要です。また、Pearsonの相関係数とSpearmanの順位相関係数を適切に使い分けることで、データの特性に応じた分析を行うことができます。
次回予告
次回は、特徴選択の手法について解説します。フィルタ法、ラッパー法、組み込み法といった手法を用いて、モデルにとって重要な特徴量を選び出す方法を学びましょう。
注釈
- 相関分析(Correlation Analysis): 2つ以上の変数間の関係性を調べる手法。
- 相関係数: 2つの変数の関連性の強さ
を示す数値。-1から1の範囲を取る。
- Pearsonの相関係数: データが線形関係にある場合に適用される相関係数の手法。
- Spearmanの順位相関係数: データが線形でない場合や順位データに適用される相関係数の手法。
- 相関行列: 各変数間の相関係数を行列形式で表したもの。
コメント