2015年2月9日月曜日

Illustratorによる千葉県全域小字(10万件)の簡易データベース完成

花見川地峡史-メモ・仮説集->3花見川地峡の利用・開発史> 3.4〔仮説〕律令国家の直線道路、東海道水運支路の検討>3.4.61 Illustratorによる千葉県全域小字(10万件)の簡易データベース完成

案ずるより産むが易しの諺の通り、思い切って千葉県全域小字の簡易データベースつくりに着手し、完成させました。

千葉県地名大辞典(角川書店)の資料編に小字一覧が掲載されています。全県の小字約10万1千件がルビ付きで収録されています。

この貴重で充実した小字情報をパソコン内でデータベースとして使えるようにすることは私の数年来の夢です。

今回の作業で曲がりなりにも実用性のある簡易電子データベースをつくり、夢実現の端緒をつかむことができました。

作業は単純作業の繰り返しでしたが、ハタ地名の検討を広域について小字レベルで行えば、充実した結果を伴うと予感するので、苦に感じませんでした。

そして、当初はpdfで作成するつもでしたが、こともあろうことか、Illustratorでデータベースを利用するシステムをつくりました。

以下、簡易データベースについて説明します。

1 簡易データベースの概要
千葉県地名大辞典の小字一覧をスキャンし、自治体別にスキャン画像を並べて、Illustratorで閲覧するシステム。

例1 印西市の小字データ(Illustrator画面。画像を縮小して全体を示したもの。旧町村[印西町、印旛村、本埜村]分の情報が3画像で示されている。影の部分は他市町村分)

例2 印西市の小字データ(Illustrator画面。小字データを読む=チェックするために画像を拡大した様子。)

例3 千葉市の小字データ(Illustrator画面。ハタ地名をチェックした様子)

ハタ地名は地理的に偏在的分布をしているので、このリスト上でも偏在的にチェックされます。

また、チェックした結果、○畑、○幡、和田、辺田がかたまりとなって偏在している様子がわかり、データ上から○畑、○幡、和田、辺田などのハタ地名が同根の地名であることが証明できると予感するようになりました。

Illustratorを使うと、チェックしたり文章を書きこんだり自由にできて、それをレイヤーに格納できるので、隠すこともできるし、いろいろな視点によるチェックを重ねて表示することもできます。

Illustratorを使えば、各種チェック情報を蓄積できて、それ自体がデータベースになるのですから、地名検討を加速させることができます

そのような使い方はAdobe Acrobat ProやDocu Worksでは十分にできません。

Illustratorが画像(小字リスト)閲覧書き込みソフトとしてヘビーな用途に使えるということにはじめて気がつきました。

なお、小字分布情報は千葉市と八千代市は所持していますが、それ以外の自治体の小字位置情報は十分に収集していません。当面は断片的分布図や各種情報源から一つ一つ調べることになります。町丁目(大字)の分布図(界線図)は国土地理院の情報があり、GISに取り込んでいます。

図書「千葉県地名大辞典(角川書店)」のページをめくりながら小字リストを体系的にチェックすることは、極端な根気(労苦)を伴っていたので、今回作成したパソコン上の簡易データベースは、自分の地名検討の新境地を開くものとして、役立ちそうだと感じています。

2 小字のテキスト化の可能性
スキャンした画像についてAdobe Acrobat Proのocr機能でテキスト化してみて、その機能が実用的なものであるか、実験してみました。

画像サイズ別のocr結果

スキャンした時の画像サイズは12×8インチですが、このサイズではルビの識字は無理のようです。

画像サイズを24×18インチに拡大するとルビもかなり識字します。

なお、画像サイズを44×31インチに拡大しても、識字の様子が特段向上することはないことがわかりました。
(参考:Adobe Acrobat Proのocr機能が可能な最大ドキュメントサイズは45×45インチであることを知りました。)

この実験から、スキャンした画像をPhotoshopでドキュメントのサイズを長さで倍に拡大すれば、図書の小字リストの実用的電子化が原理として可能であることがわかりました。

私自身が、手入力で10万件の小字リストの電子テキストをつくることはできないと思います。

しかし、この実験から、ocr機能を利用すれば、少なくとも下総台地付近の小字リスト(全体の1/3程度)を電子テキスト化して、エクセル上にデータベースを構築して、各種検索を効率的にできるようになるまでのことは、出来そうな趨勢にあることがわかりました。

もしそこまで到達できたら、次のステップであるGISにおける小字分布図作成も射程に入ると思います。

0 件のコメント:

コメントを投稿