メインコンテンツへスキップ
レッスン一覧に戻る

atom.office-automator.data-cleaning-with-ai

AIでデータのクレンジング・名寄せを行う

AIでデータのクレンジング・名寄せを行う

clean-and-deduplicate-data-with-aiclean-and-deduplicate-data-with-ai「clean and deduplicate data with ai」に関するスキルがこのレッスンで身につきます。
想定時間未設定公開状態: draft
学習メモ

成果物成果物このレッスンが終わったとき、あなたの手元に残る具体的な成果物です(例: 公開済みの Web ページ、動作するフォームなど)。

種類: markdown_doc検証: basic_manual_check_v1

証跡証跡成果物が正しく作れたことを確認するためのチェックリストです(例: ブラウザで動作する、フォーム送信で値が保存される)。

screenshot

メディアメディアレッスン内に出てくる図や動画のスロットです。実際の画面やイメージで理解を補助します。

diagramscreen_captureicon

レッスン本文

AIでデータのクレンジング・名寄せを行う

このレッスンでできるようになること

あなたの会社の「顧客リスト」に、同じお客様が何度も登録されていたら困りますよね。名前の表記ゆれ(「株式会社ABC」「(株)ABC」「ABC株式会社」)や、住所の書き方の違いで、同じ相手を別の人として扱ってしまう——ビジネスでよくある悩みです。

このレッスンでは、AIにデータの「お掃除」と「まとめ上げ」を手伝ってもらう方法を15分で学びます。終わったころには、手元のExcelデータをAIに渡してクリーンな状態で受け取れるようになっています。

データクレンジングの全体像

準備する

用意するもの

  • クリーニングしたいデータ(Excelファイルや、CSV(=カンマで区切られた表データファイル)形式のもの)
    • 手元にデータがない方は、このレッスンのサンプルデータ(10社分の架空の顧客リスト)をそのまま使えます
  • AIチャットツール(以下のどれか1つ。無料版で大丈夫です)
    • ChatGPT(chat.openai.com)
    • Claude(claude.ai)
    • Cursorのチャット機能(CSVファイルを直接開ける利点あり)

たとえ話でイメージをつかむ

データのクレンジング(=データのお掃除)は、散らかった引き出しを整理する作業に似ています。同じものが何個も入っていたり、ラベルの貼り方がバラバラだったり——まずは「何がどう散らかっているか」を把握してから片付けに取り掛かります。

名寄せ(=同じ対象をさす複数のデータを見つけて1つにまとめること)は、スマホの連絡先アプリで重複をまとめる作業と同じです。「田中太郎」「たなか たろう」「タナカ タロウ」が全部同じ人だと見抜いて、1件にまとめるイメージです。

サンプルデータを用意する

手元にデータがない場合は、以下の10行をそのままコピーしてExcelやスプレッドシートに貼り付けてください。

会社名,担当者名,電話番号,住所
株式会社ABC,田中太郎,03-1234-5678,東京都渋谷区1−2−3
(株)ABC,田中 太郎,03-1234-5678,東京都渋谷区1-2-3
ABC株式会社,たなかたろう,03−1234−5678,東京都渋谷区1丁目2番3号
有限会社デフ,鈴木花子,06-9876-5432,大阪府大阪市北区4−5
(有)デフ,スズキハナコ,06-9876-5432,大阪市北区4-5
GHI商事,佐藤次郎,052-111-2222,名古屋市中区6-7-8
GHI商事株式会社,佐藤 次郎,052-111-2222,愛知県名古屋市中区6−7−8
株式会社JKL,山田三郎,011-333-4444,北海道札幌市中央区8-9
JKL(株),ヤマダサブロウ,011-333-4444,札幌市中央区8丁目9番
株式会社MNO,高橋四郎,092-555-6666,福岡市博多区10-11

このデータには表記ゆれや重複がたくさん仕込んであります。上の3行はすべて同じ「ABC社の田中さん」です。

ステップ1:データをAIに見せる

  1. Excelやスプレッドシートでデータを開きます
  2. 見出し行も含めてデータをコピーします(見出しがないとAIが列の意味を推測しにくくなります)
  3. AIチャットに以下のプロンプト(=AIへの指示文)を貼り付けて送ります

AIへのプロンプト例①(まず状態を把握する)

以下の顧客データを分析してください。

1. 表記ゆれがある列と、具体的にどんなゆれがあるか一覧にしてください
2. 重複の可能性がある行のペアを挙げてください
3. まだ修正はしないでください。まず分析結果だけ見せてください

[ここにコピーしたデータを貼り付け]

ポイント: いきなり「綺麗にして」と頼むのではなく、まず「何が問題か見せて」と聞くのがコツです。料理でいえば、冷蔵庫の中身を確認してからレシピを決めるのと同じです。

良い例と悪い例:最初のAIへの指示

良い例(段階を踏む):

「まず表記ゆれと重複の候補を一覧にしてください。修正はまだしないで。」

悪い例(丸投げ):

「これ綺麗にして」

→ 何をどう綺麗にするのかAIに伝わらず、意図しない変更をされる可能性があります。

AIチャットにデータを貼り付けた画面

ステップ2:クレンジングのルールをAIに伝える

AIの分析結果を見たら、統一ルールを自分で決めてAIに伝えます。ルールを決めるのは人間の仕事です。

AIへのプロンプト例②(ルールを指定してクレンジングする)

ありがとうございます。では以下のルールでデータをクレンジングしてください。

【表記統一ルール】
- 会社名: 「株式会社」は「(株)」に、「有限会社」は「(有)」に統一
- 全角英数字 → 半角英数字に統一
- 電話番号: 半角数字+ハイフン形式に統一(例: 03-1234-5678)
- 住所: 都道府県は省略しない。番地は「数字-数字」形式に統一
- 担当者名: 漢字表記に統一(読みが分かる場合)

【出力形式】
- すべての行を省略せずに出力してください
- CSV形式で出力してください
- 変更した箇所には★マークを付けてください

ポイント: 「★マーク」を付けてもらうと、AIがどこを変更したか一目で分かります。確認作業がぐっと楽になります。

良い例と悪い例:ルールの伝え方

良い例(ルールが明確):

「株式会社は『(株)』に統一。全角数字は半角に。」

悪い例(あいまい):

「統一して」

→ AIがどの形式に揃えるか勝手に判断してしまい、あなたの意図と違う結果になりがちです。

ステップ3:名寄せをAIに依頼する

クレンジング済みのデータを受け取ったら、次は名寄せ(重複の統合)です。

AIへのプロンプト例③(名寄せ)

クレンジング済みのデータで名寄せをしてください。

【名寄せルール】
- 会社名+電話番号が一致する行は同一会社とみなす
- 同一会社の行は1行にまとめる
- まとめる際は、情報量が多い行を残す(住所が詳しい方を優先)
- 元の行番号も「統合元」列に記録してください

【出力形式】
- 統合結果をCSV形式で出力
- 統合した組み合わせの一覧も別途表示してください

ステップ4:結果を確認する

AIの名寄せ結果は必ず人間の目で確認しましょう。「AIが出したからOK」は一番危ないパターンです。

確認チェックリスト

  • 行数の確認: 元のデータが10行なら、統合後は何行になったか。減りすぎていないか
  • 表記の統一が意図通りか(「(株)」に揃えるつもりが「株式会社」に戻されていないか)
  • 名寄せの判断が正しいか(AIが「同じ会社」と判定したものが本当に同じか)
  • データが消えていないか(大事な行が間違って統合されていないか)
  • 変更箇所の★マークを1つずつ確認したか

良い例と悪い例:結果の受け取り方

良い例: AIの提案を見て、「この2社は社名が似ているが別会社なので分けてください」と修正を依頼する

悪い例: AIの結果を確認せず、そのまま本番データに上書きしてしまう

鉄則: 元のデータは必ず別ファイルにバックアップしてから、クリーンなデータを使い始めましょう。

ステップ5:結果をExcelに戻す

  1. AIが出力したCSVデータをすべてコピーします
  2. Excelで新しいシートを開きます
  3. 貼り付けます
  4. 列の幅を調整して、データが正しく入っているか目視で最終確認します

Cursorを使っている場合: CSVファイルを直接Cursorで開いて、チャット欄から「このCSVを上記のルールでクレンジングして」と指示できます。ファイルが直接編集されるため、コピー&ペーストの手間が省けます。

クレンジング前後のデータ比較アイコン

つまずきやすいポイントと対策

よくあるつまずきこうすれば解決AIに送るプロンプト例
データが多すぎてAIに入りきらない100行ずつに分けて渡す。見出し行は毎回つける「このデータの1〜100行目です。見出し行も付けています。前回と同じルールでクレンジングしてください」
AIが途中でデータを省略する「省略しないで」と念押しする「すべての行を省略せず、1行も飛ばさずに出力してください」
名寄せの基準がゆるすぎる/厳しすぎる判定基準を言葉で明示する「会社名と電話番号の両方が一致する場合のみ同一とみなしてください」
元のデータを上書きしてしまった作業前に必ずファイルをコピーしておく(これはAIではなく自分で行う作業です)
AIが意図しないルールで統一したルールを箇条書きで最初に渡す「以下のルールだけを適用してください。ルール外の変更はしないでください」

完了を確認する

以下の3つがすべてできていれば、このレッスンは完了です。

  1. クレンジング済みデータがある:表記ゆれが統一ルール通りに直っている
  2. 名寄せ済みデータがある:重複行が統合され、元の行数より減っている
  3. 元データのバックアップがある:クレンジング前のファイルが別名で保存されている

成果物として、クレンジング後のExcelまたはCSVファイルのスクリーンショットを保存しておきましょう。

このレッスンのまとめ

  • クレンジングは「データのお掃除」、名寄せは「重複をまとめる」作業
  • AIに丸投げせず、まず分析 → ルール決定 → 実行の3段階で進める
  • 統一ルールは人間が決めて、AIに明示するのが成功のコツ
  • AIの結果は必ず人間の目で確認してから使う
  • 元のデータは上書きせず、別ファイルにバックアップを残しておく
成果物成果物このレッスンが終わったとき、あなたの手元に残る具体的な成果物です(例: 公開済みの Web ページ、動作するフォームなど)。

種類: markdown_doc

検証: basic_manual_check_v1

証跡とメディア

証跡証跡成果物が正しく作れたことを確認するためのチェックリストです(例: ブラウザで動作する、フォーム送信で値が保存される)。

screenshot

メディア

diagramscreen_captureicon
前提 atom

必須

なし

あると楽

なし

学習完了