人気ブログランキング | 話題のタグを見る

データを予測に活かすために身につけるべき、二つの原則

  • データとの付き合い方の基本とは

「データは新しい石油だ」とか「データ・ドリブン経営」といった言葉を近年、耳にするようになった。データの重要性を長年力説してきたシステム・アナリストとしては、大変心強いことだ。しかし(いつものことだが)、『データ』という事がらの内実を充分理解しないまま、ムードで語られている感じが、なくは無い。

拙著『ITって、何?』の冒頭の問答でも書いたことだが、多くの人は情報とデータの区別さえ曖昧なまま、両方の言葉をごっちゃに使っている。元の原稿を書いたのは2002年のことだが、それから20年以上経っても、状況はあまり改善していない。

こういう人たちは、コンピュータの中に記憶されている数字だったら、「データ」だと考える。 だから、サーバの中に多数のファイルがごっちゃに保存されているだけなのに、「わが社には、大量の過去データがある」と考える管理職が出現する。それをAIにかけて学習させれば、素晴らしい予測モデルができる、などと夢想する。

データとの正しい付き合い方を理解しておけば、別にAIなど持ち出さなくても、意味のある予測モデルを作る事自体は可能だ。むしろブラックボックスになりにくい分、その方が自社にとって重要な知的資産ともなり得る。ただしそのためには、身につけておかなければならないスタンスないし原則が、いくつかある。わたしの 若い頃の経験をもとに、それをちょっとご紹介しよう。


  • DO瓶の教え

さて、皆さんはDO瓶(溶存酸素瓶) と言うものをご存知だろうか? まぁ、ご存知の方はめったにおられまい。 そこで関谷理化株式会社のサイトから、 写真を引用させていただこう。

データを予測に活かすために身につけるべき、二つの原則_e0058447_23094410.jpeg
https://www.sekiyarika.com/bis/products/detail5578.html より引用

DO瓶とは、容積100ミリリットルほどの、小さなガラス瓶である。海洋環境や、湖沼・河川などの水質調査に用いる。海や川からサンプル水を取水し、この瓶に密封して実験室まで持ち帰る。そして滴定法により、水の中に溶けている酸素濃度を測定するのである。酸素は水に一応溶けるものの、1リットルあたり、せいぜい10mg程度までしか溶存しないので、 重量比で言うと10万分の1程度の微量である。​​

ところで当たり前だが、大気は酸素で満ちている。 だからサンプル水をこの瓶に注ぎ込むときに、うっかり泡立ててはいけない。それどころか、瓶の中にわずかでも気泡が残っていると、測定値がブレてしまう。

そのためにこの瓶には、ちょっとした工夫がこらされている。瓶の蓋の部分と、本体の受け口は、ガラスのすり合わせ面になっている。しかも瓶の蓋の下部、つまり本体に入る根元の面が、写真だとややわかりにくいが、水平でなく斜めに切られている。瓶にサンプル水を静かになみなみと注いだら、真上からこの蓋をすっと落とす。すると余計な水は斜めの面に押され、すり合わせ部分から溢れ出て、蓋がきっちり閉まる。作業全体は静かに、しかし手早く行わなければならない。そうしないと、泡が立ったり気泡が残ったりしがちである。

わたしの修士論文の研究テーマは、湖の生態系のシミュレーションであった。対象は、長野県の諏訪湖である。 ここには信州大学の臨湖実験所があって、 既に何年間もの克明な調査結果と膨大なデータが(当時の事だから、当然ながら単純なテキストデータだったが)蓄積されていた。わたしの研究は、この膨大なデータを分析して、シミュレーション・モデルを作り上げることにあった。

ところが、わたしの指導教授は、現地に行って、自分でデータを取ってこいと命じた。 既に大量のデータが報告されているのに、である。(ただし余計な話だが、生物学者はしばしば、環境調査に大変な労力と情熱を費やすわりに、数値的な分析と予測を軽く見る傾向があったが、それはさておき)たしかに違う角度から、補足的に調査すべき事項はあった。 そこで研究室の先輩に手引きしていただきながら、現地に行き、ボートに乗って、実際に取水して回った。

そしてサンプル水をDO瓶に注ぎ込む段になって、それがいかにスキルを要する危なっかしい作業かを実感することになった。何せ、手先がひどく不器用な人間なのだ。何度も注ぎ直して、ようやく使い物になる1セットが出来上がる、そんな繰り返しだった。


  • データ取得のコストと精度を知る

そして改めて、なぜ先生が自分の手でデータをとってこいと言ったのか、理由がわかった。現場で自分の手でデータを取って初めて、そのデータを取得するためのコストと時間、そしてデータの精度が実感として分かったのである。それは現地から遠く離れた東京の研究室の机の上で、数字だけ眺めていては、決して理解できないことだった。

深さの違う2点間の値の引き算から、深さ方向の微係数を計算できる。理屈ではそうなのだ。だが、どの程度の精度を持ったデータ同士の引き算なのかによって、結果の意味付けは全く異なる。ここの場所の値も欲しいな、と研究室では気楽に言える。だが、ボートの速度と気象条件を考えたら、けっして簡単ではないことが、現地を経験すると初めてわかる。

データは、モデル化することによって、真の価値を発揮する。モデルというのは、何よりも対象系の簡潔明快な記述と、予測のためにある。予測とは普通、将来への推測だが、場合によってはバックワードに原因を推測(判別)することをも含む。

ところで、適切なモデル構築のためには、現場にいき、できれば自分の手でデータを取ってみることが必要だ。これが、最初にたたき込まれた思考習慣だった。そうすることで、データ取得のコストや時間、データの精度が理解できる。精度の吟味のないデータ処理や計算など、無意味(=ガーベッジイン・ガーベッジアウト)だからである。

次に身につけさせられたのは、実際のデータを眺めて、その範囲や比率、平均や分布のパターンを知ることであった。そのためには、平均・分散・最小値・最大値・標準偏差・変動係数といった基礎統計量についての理解が必要だ。加えて、ヒストグラム・散布図・管理図・対数プロットなど、データ分析に向いたグラフ表現のテクニックを知っておくべきだ。

それも、できれば、自分で点をグラフにプロットするのがいい。そうすると、それぞれの測定値の個性やクセも見えてくる。それで、もし可能なら、さらに重回帰や主成分分析など多変量解析法も少しは知っておくことが望ましい。


  • データをよく見ることの重要性

いやいや、そんな理工系研究のシミュレーション・モデルならともかく、通常の業務系システムのデータモデルなら、そんな統計学なんていらないでしょ? という疑問もあろう。実際、多くの業務系SE達は、彼らのITシステムがはじき出すデータの中身について、わりと無頓着に見える。たとえば従業員マスタに性別という項目があるとして、「男性」「女性」(最近なら「その他」)の値の、どれかが登録可能であればいいじゃないの?

果たしてそうだろうか。わたしだったら、そうは考えない。仮に男女2値だとしても、まず、男女の比率を見る。それが6:4なのか、1:9なのか。それとも9.999:0.001なのか。

そして男女の性別で判断が変わる処理は、どれだけあるのか見積もるだろう。現代日本では、女性は結婚・離婚によって姓が変わる確率が高い。女性の多い職場で、履歴データを追跡可能にしておくためには、旧姓も保持しておくべきか。また最後の比率の例では、1万人に1人しか女性がいない訳だ。だったら性別のフィールドなどとらずに、例外処理にした方が良いのではないか? なんと言っても、データはコストなのだから。

ITって、何? 』の「インターチェンジ」の章では、年賀状のための住所録のデータモデル論議を、主人公達にさせた。このとき個人を基本エンティティにするか、それとも夫婦をエンティティするか、二つの設計パターンを対比させたが、それはまさに、自分たちの知人の性別比率がどうなっているかに関わっているのである。

□ できる限り現場に足を運んで、自分の手でデータを取ってみること
□ 集めたデータを眺めて、範囲や比率、平均や分布のパターンを知ること

これらは単純だが、データからモデルを構築するときに、従うべき必須の原則である。

無論、状況によっては、現場に行けない・もはや自分ではデータを取れない、といった場合もあるだろう。得られたデータを一所懸命に眺めても、特段目を引くような点が何も見つからない時もあるだろう。でも、それはそれでいいのだ。これら原則はスタンスないしアプローチの姿勢であって、別に必勝の道具立てだといっている訳ではない。

ただ、「データは新しい原油だ」と言うとき、それはデータが重要な資源だ、というだけでなく、原油と同様に、精製して余分なモノを除去しなければ、エネルギー動力として使えないことをも意味している。データは燃料で、モデルはエンジンである。データにふさわしいエンジンを作るために、わたし達はデータの出自と性質を、よく知っておかなければなるまい。


<関連エントリ>
「システムが崩壊するとき」 https://brevis.exblog.jp/11784084/ (2009-12-15)



by Tomoichi_Sato | 2024-05-01 23:16 | 思考とモデリング | Comments(0)
<< 『それ』は本当に、不要不急なのか お知らせ:BOMをテーマとした... >>