データクレンジングの重要性

データベースなどでもマスタがきちんと保守されていないものなどのデータを扱うと「キキーッ!!」となることがあります。

今回は、そういう意味ではデータ中に決められたフォーマットや単位で入力されていないデータがあったことに、統計処理やグラフの作成を済ませ、プレゼンを作成してメールした後に気付いてしまいました。

なぜ気が付いたかというと、統計処理するパラメータごとにsummary()関数を使ったり、boxplot()で外れ値を見るくらいはやっていたのですが、前回の解析値とあまりにも掛け離れていたので「あれ?」と思ったのです。

実際、ワークシートを見てみると、いろいろ不正な値があり、自分の算出していた統計値が正しいものでなかったことに後から気付き、改めて反省しました。

この統計処理は何度かデータの追加更新を重ねて、その度にプレゼンテーションをアップデートするというルーチン作業が繰り返していました。
いくつか前の段階ですでに不正な値が混入してたらしいのですが、summary()やboxplot、hist()などで確認していたにも関わらず、それに気付きませんでした。

その後で、pairs()プロットを作成・評価しているときに、また新たな不正データを発見するという事態に陥りました。

そういう意味では、でかいワークシートになるとなかなかゴミが入っているかどうかを目視で確認するのは難しい面もあるので、何らかの不正データ検出というのをパターン化しておかないとダメだなぁと痛感しました。

#今回はたまたま不正データが大量にあったのでまだ自力で
#発見できましたが、大量のデータ中に少量の不正データが
#あったら・・・と想像すると今でも汗がでます。(^o^);;A