カーネル密度分布とは?

標準

2014年8月1日


今回はカーネル密度分布についてご紹介します。

カーネル密度とは?

カーネル密度推定とは、「有限の標本点から、全体の分布を推定する」手法の1つです。例えば、犯罪の発生地点を表すポイントデータが手元にあったとします。そのポイントデータをサンプルデータとして、ポイントのない地点の犯罪発生率を補完して推定するために使用されます。

下記の例では、7点を元にカーネル密度推定を行った例です。左図は、2次元の地図上でポイントを配置したものです。右図は、そのポイントを元にカーネル密度推定を行い、その値を3次元で表現したもので、点が集まってる部分は確率も高いと推定されます。

この結果を見ると、互いの点が近い場合は推定結果の値がつながったり、高さが強調されており(右図の左部分)、逆に他の地点から離れた位置にある点は他の点に対して影響をほとんど与えてないことがわかります(右図の右部分)。
カーネル密度推定の結果を3次元で表現このように、カーネル密度推定の結果を3次元で表現すると、視覚的に結果を表現できます。

 カーネル密度の算出方法

カーネル密度を算出するにあたっては、以下の項目を決めることが必要です。
1. カーネル関数:各標本点の影響度の広がり方を定義
2. バンド幅:カーネル関数の広がりの幅を定義

カーネル関数の一例として、正規分布があります。以下のグラフは、緑のグラフが各標本のカーネル関数に正規分布を使用したものです。これらを決定したのちに各標本点の密度分布を計算し、最後にそれらの値を足し合わせることによって、最終的なカーネル密度推定を行うことができます。赤いグラフがそのカーネル密度推定の結果となります。

カーネル関数

バンド幅とは、各標本がどれだけの範囲に対して影響を及ぼすかを指定するものです。バンド幅が小さすぎるといびつな結果になり、大きすぎると分析できないくらい滑らかな結果となってしまいます。下の例は、バンド幅が小さすぎた例です。

バンド幅

カーネル密度推定では、分析対象の特性に合わせて適切なカーネル関数・バンド幅を選択することが重要です。

様々なカーネル関数

カーネル密度推定に使用するカーネル関数には、「均等化」「三角化」「正規分布」をはじめ、さまざまな種類があります。「均等化」は、曲線ではなくヒストグラムで値を表現したもの、「三角化」は、曲線ではなく直線でグラフを表現するものです。「正規分布」は上記でご紹介したとおりです。
カーネル関数

おわりに

繰り返しになりますが、カーネル密度推定では、分析対象の特性に合わせて、使用するカーネル関数をまず決めてから分析を行うことが大切です。GISソフト「SIS」では、あらかじめ多数のカーネル関数が用意されているため、その中から必要に応じて自由に選択することができます。

カーネル密度推定を使って色分け・3次元表示など色々な表現を行うことで、思いがけない知見を得られるかも知れません。