2014年9月9日火曜日

遺跡分布ヒートマップ図の原理的有効性

花見川地峡史-メモ・仮説集>3花見川地峡の利用・開発史> 3.1埋蔵文化財データに基づく地域特性基礎検討>3.1.29遺跡分布ヒートマップ図の原理的有効性

1 ヒートマップ図の原理的有効性
●これまでの経緯
遺跡分布の概要について知ろうとして、遺跡の正確な位置情報を手作業でプロットするのが無理なので、方便として市区町村別密度図を作成しました。
さらに詳しく知りたくなって、アドレスマッチングによりプロット図を作成しました。
プロット図は市区町村密度図とくらべてプレゼンテーション的に訴求するものを感じました。
さらにプロット図から密度をある程度客観的に扱えるようにするために、ヒートマップ図を作成しました。

このようにこれまでの足どりはヒートマップ図の原理的有効性に気がついていて、それに向かって進んできたものではありません。

●ヒートマップ図の原理的有効性に気がつく
ヒートマップ図を使って地域分析を始めると、プロット図から受けた遺跡分布の印象と違うところが多く、「プロット図を単純に密度図に変換したものがヒートマップ図」という考えに違和感を強く感じました。

その違和感から出発してプロット図とヒートマップ図の違いを考察して、次の事に気がつきました。

見かけ上のプロット図(画面に表示したプロット図)は、遺跡分布が町丁大字に多数ある場合、それが1つのドットとしてしか表現されません。ある地域に遺跡がいくら密集していてもドットの数は町丁大字の数より多くなることはありません。元データの一部情報のみ視覚的に示しているのです。
従って本当に正確な遺跡分布状況を知ることができません。

ところがヒートマップ図は情報を全て使います。位置は町丁大字中央で同じでも、その町丁大字に遺跡が多数あればすべてカウントされて密度計算に使われます。

また、同じ町丁大字にあれば、別々の場所にあるにもかかわらず、同じ町丁大字中央にプロットされるというプロット図の不合理も、ヒートマップを作成するとそのアルゴリズムの特性から(空間的に移動平均を求めているので)大幅に解消されます。

このように、ヒートマップ図はプロット図と異なり遺跡分布を示す上で原理的有効性があるのです。プロット図よりヒートマップ図の方がはるかに正確です。

アドレスマッチングにより個々の遺跡位置情報は平均して数100mずれたのですが、カーネル密度推定というアルゴリズム(※)を使ったため、不正確さを大幅に覆い隠して、正確なものに近い情報を復元しているのです。

※ カーネル密度推定では、ドットの影響圏を設定し、その影響圏の重なり具合い(密度)を空間的移動平均的に推定計算します。元の遺跡位置情報は平均して数100mずれているのですが、ドットの影響圏(「半径」パラメータ)を5000mに設定すれば、遺跡位置のずれ数100mは推定計算の中で誤差として吸収されてしまうと考えることもできます。

なお、見かけ上のプロット図(画面に表示したプロット図)はそれにプレゼンテーション上の訴求力があるので、大いに期待したのですが、間違った印象を持つ場合があるようなので、今後はあまり重視しないことにします。プロット図はヒートマップ図を作成するための前処理情報と位置付けます。

縄文時代遺跡の見かけ上のプロット図とヒートマップ図のオーバーレイ図
ヒートマップ図の半径パラメータは5000m

2 市区町村別密度図と抽象化されたヒートマップ図の内容近似
市区町村別埋蔵文化財(縄文時代)密度図と「「縄文時代 埋蔵文化財が存在する町丁大字プロット図」のヒートマップ図」(半径パラメータ10000mで作成した抽象度の高いヒートマップ図)の対照図を作成してみました。

市区町村別埋蔵文化財(縄文時代)密度図と「「縄文時代 埋蔵文化財が存在する町丁大字プロット図」のヒートマップ図」の対照図

一目見ただけで分布の大勢が一致していることに気がつきます。

同じ情報源から作成した分布図ですから内容が近似するのは当然なのかもしれませんが、市区町村という区割単位で作成した分布と、ヒートマップにおける半径パラメータ10000mで作成した抽象度の高いヒートマップ図が近似するという情報は貴重な情報であると直感しました。

これから検討に使うヒートマップは半径パラメータを5000mにして抽象度を一段下げたものを使うので、より具体的な情報を得ることできることを確信しました。

0 件のコメント:

コメントを投稿