人気ブログランキング | 話題のタグを見る

『非定型的なデータ』と賢く付き合う法

「吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している」・・ご存知、夏目漱石の「吾輩は猫である」の冒頭の文章だ。

典型的に、不定形な文章だ。センテンスの長さも不統一。主語もあったり省略されたり。内容も事実なんだか、印象はなんだか判然としない。前回の記事に書いた区別にしたがえば、これは不定型な情報である。

ところでこの文章、15文字ずつ切り揃えたら、どうなるだろうか。
「吾輩は猫である。名前はまだ無い。」
「どこで生れたかとんと見当がつかぬ」
「。何でも薄暗いじめじめした所でニ」
たまたま、センテンスの切れ目に当たることもある。そうでないこともある。だがとにかく、長さだけは定型化・規格化されている。

長さが規格化されていると、機械式処理には好都合だ。つまり、データになる。なんなら末尾に誤り訂正のための符号を付加しても良い。あるいは連番を含む、定型化されたヘッダを最初につけても良い。そうすれば保存や転送に、便利であろう。

実際、わたし達が電話で喋る音声は、こんなふうに処理されている。マイクで拾った音声の強弱は、二値化され、一種のパケットとしてネットワーク間を転送されて、話し相手の受話器に届く。大変立派なデータ処理である。そしてデジタル交換機は、計算機そのものだ。

ハードディスクだって、原理的には同様に処理されている。わたし達がワープロや表計算ソフトで作る電子ファイルは、長さも内容もまちまちだが、符号化され規格化されて、データとして、磁気的な記憶装置に書き込まれる。とても便利だ。

ただしこの便利さには、ちょっとだけ問題がある。わたし達はしょっちゅう、その大事な電子ファイルを、ハードディスクの中から探し出すのに時間を浪費している。一説によればホワイトカラーは、年に150時間くらい、探し物をしていると言う。つまり、ほとんど勤務時間の1割を、探し物に使っていることになる。

ハードディスクは、ワープロ文書や表計算ファイルなどが、雑然と同居した押し入れ状態になりがちだ。私を含めて、多くの人が、フォルダーを切って整理を試みている。だが、なかなからちがあかない。ひどい場合は、二度とアクセスしないゴミ溜め同然になってしまう。

データレイク」と言う概念がある。データウエアハウスから派生した概念だ。データウェアハウスとは、業務システムのデータベースの内容を逐一、記録・蓄積していく仕組みである。基本的に、一旦格納したら、内部ではデータを変更しない。更新処理もまた、トランザクションの一種として、追記していく。

データレイクと言うのは、データウェアハウスに似ているが、さらにビデオカメラの画像や、音声や、文章や、センサーからの経時的データなど、非定型的なデータをも流し込む蓄積場所を呼ぶ。

え、非定型的なデータ? それって形容矛盾ではないのか? 前回の記事では、定型化された符号の並びをデータと呼ぶ、と書いていたではないか。

その通りだ。そこで、混乱を避けるために、規格化・定型化には、「低密度な定型化」と「高密度な定型化」の2種類がある、と考えることにしよう。

低密度な(=ローレベルの)定型化とは何か。

それは冒頭に示した夏目漱石の文章の例のように、インプットを、決まった長さに切りそろえた、符号(ビット)の集合にすることだ(多少のヘッダやチェックディジット等は付加されるかもしれない)。あるいは、不定型な長さだが、境界が明確に指定されている符号(ビット)の集合にする場合もあるだろう。ハードディスクの中のファイルは、その典型だ。

低密度な定型化は、音声や画像、ビデオなど、センサーで拾った外界からの信号を「データ化」し、電子的な蓄積・転送を可能にしてくれた。

「電話」はかつて、アナログの電気通信だった。2台の電話機の間を、微弱な電流が流れて、音声を伝達した。しかしデジタル技術の普及と共に、音声を二値符号のパケットに変換し、ネットワーク通信化した。おかげで雑音に影響されにくくなった(そのかわり、蓄積転送メカニズムのために、少しだけ遅延時間=レイテンシが長くなった)。

レコードや磁気テープも、昔はアナログの物理的記録だった。それがCDやDATなどでデジタル化され、データ化された。ビデオも同様。ビデオテープからDVDに進化した。複製や転送が、非常に高速にできるようになった。それは新しい、コンテンツ配信産業を生んだ。素晴らしいことだ。

だが、低密度なローレベルの定型化は、私たちが普段オフィスで行う仕事を、どれだけ楽にしてくれただろうか?

前回の記事で触れた、米国の国勢調査を思い出してほしい。5千万枚の手書きの調査票の代わりに、5千万枚のデジカメの写真を受け取ったとしても、せいぜい保管場所が節約できるのと、虫食いで劣化する心配がなくなる程度のものだ。人口集計のためには、人間がいちいち写真を開けて、中の文字や数字を読み取らなければいけない。

低密度な非定型的データは、何といっても、ボリュームが大きい。文字で表せばせいぜい数10 KBで済む調査票だって、デジカメの写真にしたらすぐ数MBになってしまう。資源の浪費である。

もちろん現代のAI技術に裏付けされた、パターン認識や文字読み取り機能などを活用すれば、国勢調査用紙の画像から、文字を抽出することだって可能だろう。そうすれば、紙を読んでキーボードから入力するような、ひどく単調な仕事は機械に任せることができる。ただしそれは、低密度なデータを、高密度な定型的データに転換しているのである。

では、高密度な(ハイレベルの)定型化とは何か。それは情報を分節化し、構造化し、コード化したものだ。音楽という情報を、録音しDVD化したものが、ローレベルな定型化だとすれば、ハイレベルな定型化とは、たとるならば、楽譜にすることである。

高密度な定型化データは、情報の抽象度が高い。それゆえ、検索が速く、正確になる。それも、分節化された情報(属性)単位で検索が可能である。また、そのデータを受け取ったら、機械的な処理が展開可能である。もう一つ、他のデータとつながりが取りやすい。

音楽の例でいうと、楽譜データだったら例えば第二楽章のバイオリンの最初の旋律を検索することも容易だし、電子楽譜を与えれば、自動的に音源を動かして楽曲を再生することだって可能である。DVDの録音データでは、そうはいかない。

あるいは、国勢調査データで、州の欄に”IL"という符号があったら、それは「イリノイ州」を見出しとする台帳データとつなげることができる。データを分節化し、またつなげる(関係づける)ことで、非常に自在な集計や処理を行うことができる。

わたし達のオフィス業務とは、つまるところ情報の処理である。インプットの情報があり、わたし達の頭の中で様々な処理や加工を行い、そして何らかの情報として、他の部署や外の企業に受け渡す。

様々な現場業務だって、相当程度の情報処理を必要とする。医療現場であれ、物流現場であれ、製造現場であれ、目の前の状況を判断し、インプットとなる指示や診断などの情報をもとに、必要な作業を行い、そして大抵の場合は、何らかの記録、伝票あるいは日報をつける。そうしたアウトプットは、また別の部門の仕事のインプットとなる場合が多い。

これを高速に回すためには、情報を電子的な処理に適した形、つまり高密度な定型化データにする必要がある。 今、世間が注目している『デジタル化』とは、組織の情報処理能力を、人間の頭数に依存しない形で、高速化し、スケールアウトすることを目的としている。そのためには、高密度な定型化データが必須なのだ。

前回も説明したように、Excelファイルは、電子ファイルの形をしているが、内容は非定型である場合がほとんどだ。つまり、低密度なデータに過ぎないのである。実際、わたし達が顧客から注文書を受け取る時、ファックスで受け取るのと、メールに添付されたExcelファイルで受け取るのとで、何か大きな違いがあるだろうか。どちらにしても、わたし達が行や欄の見出しから意味を読み取って、受注受付システムか何かに、一つ一つ入力しなくてはいけない。

低密度なデータは、符号(ビット)列で内容を検索する事はできる。しかし符号が指し示すコンテンツ内容の「意味」にしたがって、賢く検索・処理することができない。

・・では、低密度な、非定型的データと賢く付き合うにはどうしたら良いか?

答えは簡単である。非定型的なデータに関するデータ、「メタデータ」を付加することだ。

たとえば図書館を思い出してほしい。書架に並んでいる本は、それぞれが不定型な情報コンテンツだ。ハードディスクに並んでいる電子ファイルと、本質的にはかわりがない。だが、図書館では、蔵書に関する図書カードを作成し、本に関する情報を定型化して書き込み、整理している。図書カードは、紙であって電子化されていないが、立派な定型化データだ。そして本に関するメタデータである。

図書館の価値の半分は、この図書カードにある。そうでなければ、どうやって何万冊もの本の中から、必要なものを探せるだろうか? 

同じように、電子的なコンテンツ・ファイルには、属性を示すメタデータが必要なのだ。5千万枚のデジカメ写真も同様に、メタデータを必要とする。

Windowsをはじめ、たいていのOSは、電子ファイルに対して、最低限の属性データないしメタデータを持っている。例えば、作成したユーザ名、名称、作成日のタイムスタンプ、最終更新のためのスタンプ等だ。そこで、これまでユーザは、ファイル名称に、何らかの定型的なルールを持ち込んで、メタデータ的な属性を情報を何とか表現しようと工夫してきた。

世の中で売っているコンテンツ・マネジメント・システムとか、文書管理システムといったパッケージソフトは、このOSの限界を超えるために、コンテンツファイルに対して、後付けで定型化したメタデータを付与して、検索と整理を助けてくれる。またアクセス権やバージョン履歴、ワークフローなどの機能を提供している。

ただし、データに関するデータ、メタデータの付加には、人間の入力作業が必要だ。そしてしばしばここが、ボトルネックになりやすい。文字認識や画像認識は、少しは助けてくれるが、ユーザの作業を全面的に免除してはくれない。メタデータは、使用する目的に応じて、決める必要があるからだ。AIは、個別のExcelファイルを我々が、「どんな目的で」使おうとしているかまでは、(今のところは)推測できない。

たまたまわたしは、冒頭の夏目漱石の文章を、「青空文庫」の中から見つけてきた。先人の残した書籍コンテンツを、一つひとつ手入力して電子化しているボランティアの努力には、頭が下がる。たしかに、非定型な文章という情報を、電子化することには、それなりに意義があるだろう。

だが、もう一つ価値があるのは、青空文庫が、ちゃんと著者やタイトル等のメタデータを、きちんと整備してくれていることである。メタデータという水先案内がなければ、わたし達は非定型なデータの湖(レイク)で、泥沼に足を取られて、情報過多におぼれるばかりだからである。


<関連エントリ>
  (2021-08-31)

by Tomoichi_Sato | 2021-09-08 23:09 | ビジネス | Comments(0)
<< 「プロジェクト&プログラム・ア... 情報の電子化はデジタル化か? >>