atom.data-analyst.document-cleaning-rules
前処理ルールを記録する
前処理ルールを記録する データを分析する前に、必ず「データの整理」が必要です。料理でいうと、野菜を洗って皮をむいて切りそろえる 下ごしらえ のようなもの。下ごしらえを丁寧にしておけば、あとの調理(=分析)がぐんとス...
成果物成果物このレッスンが終わったとき、あなたの手元に残る具体的な成果物です(例: 公開済みの Web ページ、動作するフォームなど)。
証跡証跡成果物が正しく作れたことを確認するためのチェックリストです(例: ブラウザで動作する、フォーム送信で値が保存される)。
メディアメディアレッスン内に出てくる図や動画のスロットです。実際の画面やイメージで理解を補助します。
レッスン本文
前処理ルールを記録する
データを分析する前に、必ず「データの整理」が必要です。料理でいうと、野菜を洗って皮をむいて切りそろえる下ごしらえのようなもの。下ごしらえを丁寧にしておけば、あとの調理(=分析)がぐんとスムーズになります。
この Atom では、その下ごしらえの手順を「前処理ルール(=データを整理するための手順書)」として書き残す方法を学びます。ルール作成には AI ツールを活用するので、文章をゼロから考える必要はありません。

前処理ルールのイメージをつかむ
まずは完成イメージを確認しましょう。前処理ルールとは、次のように書いた1枚のメモ(ドキュメント)のことです。
例:顧客データの整理ルール
- 「氏名」列のカタカナ・英数字をすべて全角に統一する
- 「電話番号」列のハイフンをすべて取り除く
- 「生年月日」列が空欄の行は「不明」と書き込む
- 「顧客ID」が重複している行を1行にまとめる
このように「何をどうするか」を箇条書きで書くだけです。プログラミングの知識は必要ありません。
良い例と悪い例を見比べる
良い例(具体的で誰でも実行できる):
「電話番号」列のハイフンをすべて取り除く
悪い例(曖昧で実行できない):
電話番号をいい感じに整える
何が「いい感じ」なのか人によって違います。ルールは誰が読んでも同じ作業ができるように書くのがポイントです。
対象データの「汚れ」を見つける
ルールを書く前に、まずはデータのどこが「汚れているか」を観察します。お店の在庫棚を点検するイメージで、一つずつ確認していきましょう。
よくある「汚れ」のパターン
| 汚れの種類 | 具体例 |
|---|---|
| 表記ゆれ | 「(株)」「株式会社」「㈱」が混ざっている |
| 空欄 | 年齢の列に何も入っていない |
| 重複 | 同じ人が2回登録されている |
| 形式ばらばら | 日付が「2024/1/5」「2024-01-05」「令和6年1月5日」で混ざっている |
あなたが持っているデータを眺めて、「あれ?これなんか変だな」と思ったところが前処理の対象です。
ヒント: データが手元にない場合は、AI に「前処理の練習に使えるサンプルの顧客リストを CSV 形式で作ってください。表記ゆれや空欄を含めてください」と頼むと、練習用データをすぐ用意できます。
AIに「汚れ」を見つけてもらう
データが大きいときは、自分の目だけで「汚れ」を探すのは大変です。AI に手伝ってもらいましょう。
AI への指示文(プロンプト)例
以下の表データに含まれる「汚れ」(表記ゆれ・空欄・重複・形式のばらつき)をすべて一覧にしてください。
見つかった汚れごとに、列名・行番号・具体的な内容を表で出力してください。
【データ】
(ここにデータを貼り付ける)
使える AI ツール:
- ChatGPT(ブラウザで使える): テキストを貼り付けて上のプロンプトを送る
- Claude(ブラウザで使える): 同様にテキストを貼り付けて送る
- Claude Code(ターミナルで使える方): CSV ファイルを直接読み込ませたいときに便利

ルールを自然言語で書き出す
「汚れ」が見つかったら、それをどう直すかを日本語で書き出します。ここではまだ完璧でなくてOKです。思いつくままにメモしましょう。
書き出す際のコツ:
- 対象(どの列・項目か)と操作(何をするか)の2つを必ず書く
- 1つのルールにつき1つの操作に絞る
良い例:
「会社名」列の「(株)」を「株式会社」に置き換える
悪い例:
会社名を直す
「どう直すのか」が書いていないと、後で見返したときに分からなくなります。
AIにルールを整理してもらう
書き出したメモを AI ツールに渡して、きちんとした前処理ルールに仕上げてもらいましょう。
プロンプト例
以下のデータ整理メモを、「誰が読んでも同じ作業ができる前処理ルール」に整理してください。
各ルールは「対象列 → 操作内容 → 理由」の3つを必ず含めてください。
出力形式はMarkdownの番号付きリストにしてください。
【メモ】
- 会社名がバラバラ。(株)とか株式会社とか
- 日付の形式が統一されていない
- 電話番号にハイフンがあったりなかったり
- 住所が空欄のところがある
AI から返ってきた結果を確認し、あなたの意図と合っているか読み返します。
結果が思い通りでないときの追加プロンプト例
ルール3の日付形式について、統一先は「YYYY-MM-DD」にしてください。
また、各ルールに「適用前の例 → 適用後の例」を1つ追加してください。
このように、気になった点をピンポイントで伝えるのがコツです。
プロンプトの良い例と悪い例
良いプロンプト:具体的なデータの例と、どうしたいかを書いている
「会社名の列に (株) と株式会社が混ざっています。すべて『株式会社』に統一するルールを書いてください。」
悪いプロンプト:指示が抽象的すぎる
「データをきれいにして」
AI は具体的な指示ほど正確に答えてくれます。食材の名前と分量を書いたレシピの方が、料理がうまくいくのと同じです。
ルールの抜け漏れを確認する
AI が整理したルールを受け取ったら、次のチェックリストで確認します。
- 各ルールの対象列が明記されているか
- 各ルールの操作内容が1つに絞られているか
- 元の「汚れ」がすべてカバーされているか
- ルール同士が矛盾していないか(例:「空欄を削除する」と「空欄に『不明』と書く」が同じ列に両方あると矛盾)
1つでも「あれ、これどうなるんだっけ?」と思うところがあれば、AI に質問して埋めましょう。
AI への確認プロンプト例: 「以下の前処理ルールに抜け漏れや矛盾がないか確認してください。もしあれば修正案を出してください。」
つまずきやすいポイントを知る
| つまずきポイント | 対策 |
|---|---|
| 「汚れ」が多すぎてどこから手をつけてよいか分からない | まず AI にデータを見せて「汚れの一覧を作って」と頼む。種類ごとに分けてくれる |
| AI の回答が思った通りにならない | 元データの具体例(2-3行分)をプロンプトに追加する |
| ルールを書いたけど後で自分でも分からなくなる | 各ルールの横に「なぜそうするか」の理由を1行添える |
| データが大きすぎて AI に貼り付けられない | 先頭20行だけ貼り付けて「このようなデータが全部で1000行あります」と伝える |
成果物を確認する
この Atom の成果物は、整理された前処理ルールをまとめたドキュメントです。次の4つが含まれていれば完成です:
- 対象データの概要 — どんなデータか(例:「取引先一覧の Excel、500行」)
- 発見した「汚れ」の一覧 — AI と一緒に見つけた問題点
- 各「汚れ」に対する整理ルール — 対象列・操作内容・理由の3点セット
- ルール適用後にどうなってほしいか — 期待される状態(例:「日付はすべて YYYY-MM-DD 形式」)
完成したらスクリーンショットを撮って、記録に残しましょう。
最終チェック: ルールを何も知らない人に見せたとき、その人がルール通りにデータを整理できそうですか? 「はい」と思えたら合格です。
種類: markdown_doc
検証: basic_manual_check_v1
証跡証跡成果物が正しく作れたことを確認するためのチェックリストです(例: ブラウザで動作する、フォーム送信で値が保存される)。
メディア
必須
なし
あると楽
なし