面倒なスキャン作業を1枚3円~で業界最安値挑戦中!

電話お問い合わせ お問い合わせフォーム

デジタル化対策とオープンデータの取組み。第一歩としてのアナログ資料のスキャニングによるデジタル化

日本は「失われた20年」と言われて久しい中でも残念ながら大きく変わることなく、今では失われた30年とも言われつつあります。その大きな原因として様々挙げられていますが、その中でも「デジタル化の遅れ」は、よく指摘されるものの一つです。

その対策として、デジタルトランスフォーメーション、いわゆる「DX化」を進める必要性が強調されていますが、その対策の基底をなす一つの柱としてよく言われるのが「アナログデータのデジタル化」です。

そのアナログデータのデジタル化をより体系的に進める為の基本的な概念として「オープンデータ」という概念があります。今回はそのオープンデータの考え方を紹介するとともに、その第一歩としてアナログ資料のスキャニングによるデジタル化についても考えてみたいと思います。

オープンデータとは

まずオープンデータとは何か解説します。まず概念的に言うと


特定のデータが著作権や特許権などの制約無しに

自由に利用したい人が利用したいように準備されたデータ

もしくはデータを用意しようとする考え方、運動


と言えます。この考え方は古くからあるので、何かで聞き及んだことがあるかもしれません。

例えば、インターネットの黎明期にはインターネットのメリットの一つとして考えられ、理想論的に語られていました。ただ、その当時は、無限大にも思える共有したいデータの膨大さに対してインフラが追いついているとはとても言えませんでした。回線はまだ電話のアナログ回線を使う時代でしたし、ハードディスクの容量も今とは桁違いに小さい時代です。仮にこの時代に実行した場合、天文学的なコストが掛かるわりには、期待したほどのスペックを発揮出来なかったでしょう。それほど技術的な制約がある状態でした。

オープンデータと呼ぶ為の3条件

その他、Wikipediaを思い浮かべた方もいるかもしれません。Wikipediaは言わずと知れたフリーのネットの百科事典。根底の考え方は共有しているといって良いでしょう。ただWikipediaはデータを提供しているというよりは、知識を共有するという性格が強く、オープンデータと言い切ることは難しいかもしれません。

そう言うのには実は理由があります。オープンデータには古くからある考え方ゆえに様々な定義がありますが、最近では以下の3つ条件に整理されてきています。


1. 営利目的、非営利目的を問わず二次利用可能なルールが適用されたもの

2.機械判読に適したもの

3.無償で利用できるもの


この3条件を満たしているものをオープンデータと呼ぶのが一般的です。この条件から言うと、2の「機械判読に適したもの」という条件をWikipediaが十分に満たしていません。「十分に」と含みを持たせる言い方をしましたが、その理由については後述します。

機械判読に適したものというのは、もう少し噛み砕いて言うと、プログラムで利用しやすいフォーマット(形式)になっているかどうかということです。

一定のルールに基づいてデータが記述されている

一般にプログラムは、決まったルールに則った形式で記述されたデータしか読み込むことができません。厳密に言えばAIなどを駆使してデータを抽出することはかなりできるようになってきたとは言え、そのAIを使った場合でも、最終的にはデータを一定の書式に整えて使っていきます。

「決まったルールに則った形式」とは、エクセルなどを使って作る表を思い浮かべて頂ければ概ね正しい理解です。一定のルール、例えばA列と1行目のデータ項目名に従ってデータが入力したりするかと思いますが、その状態が「一定のルールに基づいて記述されている状態」です。

こうなっているとプログラム的には非常にデータが取り扱いやすくなります。つまり機械(例えばパソコンやサーバ)が取扱しやすい、つまりデータを判読しやすい状態と言える訳です。

Wikipediaでは、この状態になっているとは言えません。例えば日本のサッカーチームの一覧というデータを取得したいと思っても、サッカーチームの一覧のページは存在しますが、そこから各チーム名を抽出する為には、手作業での入力作業を挟む必要が出てきます。手作業を挟む以上、機械判別できていないということです。

ちなみにオープンデータの考え方をより具現化しているサービスの一つとして、Wikipedia と同じ財団が運営しているwikidata.orgというサービスがあります。これは欲しいデータを技術的に(プログラム的に)取得する手段を用意している点がWikipediaとの大きな違いになります。

技術的な話である為、詳細には述べませんが、SPARQLというプログラム言語を使ってまとまったデータを取得することができるサービスになっています。例えば、歴代の東京都知事のデータを取得するといったような使い方ができます。

その他にも様々なオープンデータを提供しているサービスはたくさんあります。あとで紹介もしますし、思っている以上に様々なデータがあるのに驚くかもしれません。興味をお持ちならぜひご自身でも調べてみてください。面白いかもしれません。

オープンデータの5段階評価

先ほど説明の為にWikipediaを例に挙げて、3条件のうちの「機械判読に適したもの」という点を「十分に」満たしていないという話をしました。

これは主に実際の利用シーンを想定すると、満たしていないと考えるべきというのが、正しい言い方になります。

非常に大きく捉えれば、Wikipediaも2の機械判読に適したものと言うことが可能です。Wikpediaは、Webサイトと言う形で公開されているので、100%デジタルデータ化されている状態です。完全にデジタルデータなので、機械判読する大前提であるデジタル化という要件は満たしているということです。

ただ実務上では結局手作業を挟むことが多くなってしまう為、十分に満たしてはいないということですが、「デジタルデータを公開している」ということが最低限の条件になり得ることはご理解頂けたかと思います。

このオープンデータの質を判定する基準を、Webの発明者であるティム・バーナーズ=リーが提唱しています。5つ星スキーム(5-star deployment scheme)と呼ばれるスキームで、纏めると以下の表の通りです。

(どんな形式でも良いので) あなたのデータをオープンライセンスでWeb上に公開しましょう
★★ データを構造化データとして公開しましょう (例: 表のスキャニング画像よりもExcel)
★★★ 非独占の形式を使いましょう
★★★★ 物事を示すのにURIを使いましょう,そうすることで他の人々があなたのデータにリンクすることができます
★★★★★  あなたのデータのコンテキストを提供するために他のデータへリンクしましょう

この基準は、プログラムから見た時の使いやすさの基準とも言えます。

星1つの段階ではデータの加工を行うにはちょっと無理がある状態と言えます。端的な例では、アナログな媒体(典型的なもので言えば紙媒体)をスキャニングしただけのデータです。

スキャニングしてデジタルデータにはしているので、オープンデータと呼ぶことはできますが、実際そこに写っているデータを加工するには相当な技術が必要になります。OCRなどの手段はあるにはありますが、実質データを加工することは難しいと考えた方が良いかもしれません。

星2つの段階になると格段にデータ加工しやすくなります。分かりやすい例を挙げるとエクセルにまとめられたデータです。一定のルールに則っていれば相当簡単にデータを扱えます。ただ、この段階ではデータを纏めているソフトに依存するので、例えばエクセルファイルでまとめていると、エクセルというアプリケーションが必要になってしまう制約があります。

星3つは、そのアプリケーションの制約に配慮した状態のデータセットと評価されたものに付けられます。星2つの場合の例で言うと、エクセルファイルではなくてCSVファイルでデータを保存して、より様々なアプリケーションで扱いやすいようにしている状態です。加工する側から見ると相当な自由度があると言えます。

星4つは、データを利用する側へのさらなる配慮をした状態です。一定のフォーマット(Web基準、RDF)に則って公開している状態です。一定のフォーマットに整っているので、フォーマットの使い方を他のデータセットと共有できている状態ですので、より活用しやすい状態になっていると言えます。

星5つは、星4つの状態から他のデータセットのリンクが充実している状態です。これ以上望めないデータとしては完璧な状態で公開されていると言っていいでしょう。

オープンデータへの取り組みの色々

オープンデータという言葉を各国政府が用い、本格的に取組みを推進し始めたのは2009年頃です。米国と英国の公的プログラムが始めました。そこから国連などにも動きが拡大し、2013年には、G8サミットで、「オープンデータ憲章」が採択されるに至りました。

この頃から日本でも政府が取り組みを加速させていきます。オープンデータで検索すると政府機関や地方自治体が出てくるのは、この辺りの動きがあったからです。

※個別のケースの紹介は非常に面白く、たくさんあるのでまた別の記事で紹介いたします。

政治的な流れと同時に、オープンデータとの相性という面も公共機関が取り組む後押しになっています。オープンデータというのは、RPAなど他のDX化とは異なり、即効性のある対策ではありません。そう言う意味では、費用対効果に見合わない場合が多くなり、民間で取り組むには難しくなりがちです。その点公共機関だと取り組みやすい面があります。

また公共性のあるものをデータ化すると言う面でも無償で提供する為には、公共機関が動かざるを得ない部分があります。気象データや地形データなどをイメージしていただくと分かりやすいかもしれません。

またデジタル庁が発足して、政府機関や地方自治体は、デジタル化一般はますます加速することになると思います。その時、オープンデータの考え方に基づいた整理の仕方を知っておくことは有益です。

まずは星1つからスタートする

オープンデータの取り組みはどんどん加速していく情勢は、都道府県の県庁や、市役所、町役場などには、データ化されていないアナログ資料がたくさんあるという面も後押ししています。

これらはもちろん個人情報など機微な情報も多くありますが、それ以外の公開されるべきデータも膨大にあるからです。こう言うデータはまず扱いやすさを考えるよりも「公開」することを優先した方が良いでしょう。少なくともデジタルデータにしておくということはなるべく早く行っておくべきでしょう。

その時にまず考えられる方式は、「書類をスキャニング」です。紙の量が膨大ではありますが、あまり深く考えずにデータ化しておける最も取り組みやすい方式です。

この状態では星1つの質ではありますが、無いよりは遥かにマシです。ファイル名の付け方やファイルをフォルダーやディレクトリで整理する方法を考えておくだけでも扱いやすさは向上します。技術革新でスキャニングしたデータからより扱いやすいデータにできるようになる可能性もそれほど低い話では無いはずです。

まとめ

今回はオープンデータの取り組みについて見てきました。

経済の活性化や人口減少による働き手不足を解消する為の効率化のためにも過去のアナログ資産のデジタル化は必須のステップです。

即効性という面ではRPAに及ばないですが、公共機関が膨大な公共データをデジタル化した時の効果は社会全体に及ぼす可能性があります。そういう意味で政府や地方自治体によるオープンデータへの積極的な取り組みを期待したいところです。

星の数を多く獲得したくはなりますが、何よりもデータが膨大にあるので、まずは一歩を踏み出すことが何よりも肝要です。それには「スキャニング」するという手段は有効な手段になり得ます。

実際、地方自治体からのスキャニングのご依頼を受けた実績もあります。お気軽にお問い合わせ頂ければと思います。

オープンデータはテーマとしては非常に大きくまた、事例も多くありますし、深堀すると面白いので、次回以降もオープンテーマの事例について見ていきます。