2015.02.09記事「Illustratorによる千葉県全域小字(10万件)の簡易データベース完成」で報告した通り、千葉県下約9万3000の小字について、市町村別リストを画像としてデータベース化して地名にかかわる検討を行う際に活用しています。
図書(「千葉県地名大辞典」(角川書店))を利用するより、パソコン上でこの簡易データベースを利用する方がはるかに利用しやすいです。パソコンの画面上でチェックを書き加えたり、書き込みできますから利用しがっては(紙の)図書と比べると大きく改善されました。
しかし、何と言ってもテキストが電子化されていないので、全文検索できないことは決定的に不便です。
画像のリストを目で追って読んで、画像にいくらチェックができるといっても、数千以上の対象になるとどうしても見落としがでてしまいます。時間もかかりますし、根気を継続するのにも限度があります。
そこで、思い切って小字リストのテキスト電子化にチャレンジしました。
適切で効率的な作業方法を見つけるための検討を主眼にしてまず千葉市分(小字数約3800)についてテキスト電子化作業を行い、その完成のメドが立ってきましたので、その方法等をこの記事でメモしておきます。
1 小字リスト電子化方法の手順
ア 図書小字リストのスキャン(jpgファイル作成)
スキャンしたjpgファイル例
イ OCR(文字認識)用ファイルの作成
読み込みが1段となるリスト範囲のOCR用画像を作成し、OCRの正答率を上げるために画像解像度を大きくする。
OCR用jpgファイル例
ウ DocuWorksにOCR用ファイルを取り込む
エ DocuWorksでOCR処理する
DocuWorksでOCR処理した画面
オ OCR結果をエディターにコピペする
カ (別画面に元画像ファイルを表示して、それと比較しながら)エディター画面上でOCR処理結果のテキストデータを調整して完成させる
エディター画面上で調整した小字リスト
2 OCR処理するソフトについて
OCR処理するソフトとして最初はAdobe Acrobat Proを使ったのですが、一般文章と違い単語が途切れ途切れでかつルビがあるため、勝手に多段組み形式文章として読み込みこんでしまい、その読み込んだ結果を編集する機能がないため、結局使い物になる結果を得ることができませんでした。
webでOCR処理できるソフトの情報を調べたところ、DocuWorksの情報をみつけ、たまたまDocuWorksを持っていたので、試してみました。
試したところ、段組みやその他OCR処理する条件を詳細に設定できることと、レイアウト解析という機能でOCR認識枠を編集できることを知り、今回の使用に使えるソフトであることがわかりました。
3 テキスト電子化結果の整理について
当初Excelでデータベースを作成することを直接目指して、いろいろと模索しました。
しかし、紙の情報を電子化するステップとその電子化した情報を使ってExcelで何らかのデータベースを作成するステップは全く別ものであるということに途中で気がつきました。
そこで、まず紙の情報を電子化する作業を完成させ、それが出来たならその後そのデータをExcelに流し込む作業を行うことにしました。
現在行っている作業は、紙の上の情報(テキスト)をほぼそのままの形でエディター上の情報にする作業です。
4 小字リスト電子化の効果
作業方法を決めるための検討をメインとした最初の試行作業である千葉市分作業(小字約3800)の完成に近づいて、小字リスト電子化による効果が自分にとっては大きなものであるという実感を深めています。
千葉市の小字は「「絵にみる図でよむ千葉市図誌 上下巻」(千葉市発行)で詳しく紹介され、その元資料として「千葉市小字図(タイプ印刷)」(和田茂右衛門、昭和53年)が存在しています。
これだけ詳しい資料が有る市町村は千葉県下では少ないと思います。
しかし、詳しい資料はありますが、○○区○○町には△△という小字があるということが判るだけです。△△という小字はどこにあるかという検討はほとんど不可能です。
例えば「畑、旗、幡・・・」というハタと読む漢字を含む小字を全部抽出したいと考えて、千葉市を対象にそれを実行した人は過去誰一人いないと思います。
しかし、電子化によりそれがいとも簡単にできます。
ハタと読む小字が全部抽出できれば、その詳細な分布図をつくることは手間のかかることですが、町丁目毎の出現分布図をつくることは比較的簡単にできます。
小字リスト電子化によりこれまで誰も気がつかなかったヒントを沢山見つけることが可能になりそうな予感を作業しながら日々深めています。
詳しくは千葉市分の小字リスト電子化が完成した後に、その効果をレポートします。
0 件のコメント:
コメントを投稿