こんにちは、インフォマティクスの空間情報クラブ編集部です。
今回はカーネル密度推定についてご紹介します。
参考
インフォマティクスでは、国内で約36,000のお客様に利用されているGIS(地理情報システム)製品SIS(エスアイエス)をご用意しております。
SISの資料をダウンロードする
目次
カーネル密度推定とは
カーネル密度推定は、有限の標本点から全体の分布を推定する手法の1つです。
ある分布の密度関数を推定したい場合には、パラメトリックモデル(正規分布、指数分布、ガンマ分布など)を想定した手法が使われます。
分布をパラメトリックモデルで記述できない場合は、ノンパラメトリック推定という手法が使われます。カーネル密度推定はノンパラメトリック推定の代表例です。
カーネル密度推定の例
たとえば、犯罪発生地点を表すポイントデータがあると仮定します。
そのポイントデータをサンプルデータとして、ポイントがない地点の犯罪発生率を補完して推定したいような場合にカーネル密度推定を使います。
下図は7点の地点を元にカーネル密度推定を行った例です。左側は2次元の地図上にポイントを配置したものです。
右側はそのポイントを元にカーネル密度推定を行い、値を3次元で表現したものです。点が集まっている部分は確率が高いと推定されます。
右側の結果を見ると、互いの点が近い場合は推定結果の値がつながっていたり高さが強調されていたりしますが、他の地点から離れた位置にある点は、他の点にほとんど影響していないことがわかります。
このようにカーネル密度推定を3次元で表わすと、推定結果を視覚的にわかりやすく表現できます。
カーネル密度の計算方法
カーネル密度を計算する場合は、以下の項目を定義する必要があります。
- カーネル関数:各標本点の影響度の広がり方を定義
- バンド幅:カーネル関数の広がりの幅を定義
カーネル関数の種類
カーネル密度推定に使用するカーネル関数には「正規分布(ガウス分布)」をはじめ、さまざまな種類があります。
- 正規分布(ガウス分布):左右対称な曲線で分布を表現(下図一番上)
- 均等化:ヒストグラムで値を表現(下図真ん中)
- 三角化:直線でグラフを表現(下図一番下)
バンド幅
バンド幅とは、各標本が影響を及ぼす範囲を指定するものです。
バンド幅が小さすぎるといびつな結果になり、大きすぎると分析できないくらい滑らかな結果になります。
以下はバンド幅が小さすぎた例です。
カーネル密度計算例
カーネル密度の計算方法として、「正規分布」関数を使った例をご紹介します。
下図は緑のグラフが各標本のカーネル関数に正規分布を使用したものです。
使用する関数やバンド幅を定義したのち、各標本点の密度分布を計算し、最後に値を足すことでカーネル密度推定を行うことができます。
赤いグラフがカーネル密度推定の結果です。
おわりに
カーネル密度推定では、分析対象の特性に合わせて適切なカーネル関数やバンド幅を選択することが重要です。
GISソフト「SIS」にはあらかじめ多数のカーネル関数が用意されており、必要に応じた関数を選ぶことができます。
カーネル密度推定を使って色分け・3次元表示などさまざまな表現を行うことで、思いがけない知見が得られるかもしれません。
GISソフトをお探しなら
GISソフトをお探しの方、現在お使いのGISに課題を感じている方は、GIS(地理情報システム)製品SISのご利用を検討されてみてはいかがでしょうか。無償版もご用意しています。
SISの資料をダウンロードする >>
GISやAI機械学習を使った業務システムの構築に関するご相談を承っています。お気軽にお問い合わせください。