1. HOME
  2. ブログ
  3. 用語
  4. データクレンジング

BLOG

情報ブログ

用語

データクレンジング

情報化社会が進むにつれ、各企業が大量の電子化したデータを保有するようになりました。そこで注目されているのが、データクレンジングです。

クレンジング(Cleansing) とは「汚れを落とす」や「洗う」などの意味を持ちます。つまりデータクレンジングとは「データを洗浄する」ことです。具体的にはデータベースに蓄積された情報のうち、表記ゆれ※や誤記などを一定の条件のもとで揃え、最適化する作業です。なお、同じ意味の言葉としてデータクリーニング(Cleaning)があります。
※表記ゆれ:「1」と「一」や、「株式会社」と「(株)」など、同じ意味でも複数の表記が混在している状態。

情報を有効に使うためには、データクレンジングをすることが大切です。

では、どんな時にデータクレンジングが必要となるのでしょうか。

複数の担当者が入力したデータ

全角/半角や記号の使い方など、入力する際に表記ルールが設定されていないとデータの重複が発生してしまいます。いわゆる表記ゆれの状態です。表記ゆれの対策として同じ意味の表記を統一するほか、電話番号はハイフンの有無や「0」で始まるのか、「+81」で始まるのか、といった項目ごとの入力方法にもルール付けをすることが大切です。継続して入力していくデータの場合は(データ量にもよりますが)、月一回程度の頻度でデータクレンジングを行うことをおすすめします。

複数の部署で個別に作成したデータを統合

それぞれの部署で作成したデータを統合する場合、やはり表記ゆれの問題が出てきます。また、部署ごとのルールが適用された入力値になっているケースもあります。例えば、商品コードで管理しているデータに対して商品カテゴリと商品名で管理しているデータの場合、統合時に両方の入力値が必要なのか、商品コードにするのか、商品カテゴリと商品名にするのか、用途によって違ってきます。この場合、どのように補完するかをまず決めておいてから統合すべきです。

利用目的に沿ったデータ整備

例えばデータの利用目的が統計であった場合、個人名や電話番号、丁番地に至る詳細な住所情報は不要です。その場合は必要な箇所のみ抽出し、新たなデータとして作成すべきでしょう。逆に顧客リストとして管理したい場合は、細かな情報も取り入れたものにしておくと、スムーズな対応へとつながります。「何に使うものか」を明確にし、必要なデータを整備しましょう。

データクレンジグの進め方をご紹介します。

データクレンジングは、データ作成の最終段階ではありません。あくまでもデータを構成している表記を整えるだけです。そこから重複したデータを削除・統合するといったデータの整理は「名寄せ」と呼ばれる作業となります。

データクレンジングを行う際の具体的な流れは下記です。

  1. 目的と項目選定
    まず初めに行うのは、何をするためのデータなのか、目的を明確にすることです。
    やみくもにデータをまとめるのではミスもロスも多くなりますし、情報漏洩の元となりかねません。必要な項目に絞ってデータを作成するためには、きちんと目的を設定することをおすすめします。
  2. ルールの設定
    表記ゆれがあった場合のルールを決めます。例えば数字は半角にする、「(株)」は「株式会社」にする、電話番号はハイフンを入れる、特殊文字は使わない、等です。あらかじめ予想できるものは一覧を作成しておき、あとは状況に応じて足していきます。また、項目の分割や結合もここで決めておきましょう。例えば住所は都道府県、市区町村、丁番地、マンション名を別々の項目として分割する、等です。最終的にどのように使いたいのかを見据えたルールを考えておきます。
  3. データの取り込み
    項目の選定、ルールの設定が終わったら、実際のデータを取り込みます。
    取り込み元のデータには、さまざまなフォーマットがあります。よく見られるのがExcelで作成したものでしょう。その他にも、CSV形式やXML、ログファイルといったものがあります。同じフォーマット同士であれば問題ありませんが、別のフォーマットのものを統合する場合は、データベースに取り込んでから作業に入ります。
  4. データクレンジング実行
    設定したルールを共有し、実際のデータをクレンジングしていきます。データの規模によっては、ある程度ツールを使って自動的にクレンジングすることもあります。また、クレンジング中に追加されていくルールは、リアルタイムで共有できるようにしておくと効率的です。さらにクレンジング後のデータ追加時にも役立ちます。
  5. 重複データをまとめる(名寄せ)
    クレンジングすることで判明する重複データを統合して、より合理的なデータに整理します。

情報は貴重な経営資源です。マーケティングに活用したり、時には経営判断の材料にもなります。ただ保有するのではなく、定期的にメンテナンスをして「使える」ものにしていくことで価値を何倍にも膨らませることができるのです。
電子データ化センターでは、データクレンジングの第一歩となる書類の電子化をお手伝いしています。どんなフォーマットにするのか、いずれどんな風に役立てたいのか、お話を伺って最適な電子化をご提案いたします。ぜひご相談ください

関連記事

無料相談:0120-611-922