必須ではありませんが、先に目を通しておくとスムーズに進められるレッスンがあります。
atom.data-analyst.detect-data-issues
データの乱れを見つける
データの乱れを見つける スプレッドシートを使っていて、「あれ、合計が合わない」「同じ会社なのに名前が微妙に違う」と感じたことはありませんか? これが データの乱れ です。料理にたとえると、冷蔵庫の中に賞味期限切れの...
成果物成果物このレッスンが終わったとき、あなたの手元に残る具体的な成果物です(例: 公開済みの Web ページ、動作するフォームなど)。
証跡証跡成果物が正しく作れたことを確認するためのチェックリストです(例: ブラウザで動作する、フォーム送信で値が保存される)。
メディアメディアレッスン内に出てくる図や動画のスロットです。実際の画面やイメージで理解を補助します。
レッスン本文
データの乱れを見つける
スプレッドシートを使っていて、「あれ、合計が合わない」「同じ会社なのに名前が微妙に違う」と感じたことはありませんか? これがデータの乱れです。料理にたとえると、冷蔵庫の中に賞味期限切れの食材や、ラベルのない容器が混ざっている状態です。そのまま料理を始めると、味がおかしくなったり、お腹を壊したりしますよね。データ分析も同じで、乱れたデータのまま集計すると、間違った結論にたどり着いてしまいます。
このレッスンでは、AIチャット(ChatGPTやClaude)にデータを渡して、「どこがおかしいか見つけて」とお願いする方法を学びます。あなた自身が1行1行チェックする必要はありません。AIに聞き方のコツを覚えれば、15分もかからずデータの問題点リストが手に入ります。
前提を確認する
このレッスンを始める前に、以下が済んでいることを確認してください。
- AIチャットツール(ChatGPT・Claude など)にログインできる
- 「データを読み込んで中身を確認する」レッスンを終えている(データの貼り付け方がわかる)
- 確認したいデータがある(サンプルでもOK。10〜100行くらいの表がちょうどいい)
データの「乱れ」とは何かを知る
データの乱れは、大きく5つのパターンに分かれます。まずはどんな種類があるか頭に入れておきましょう。

| パターン | 具体例 | 放置するとどうなる? |
|---|---|---|
| 欠損(空欄) | 電話番号の列が空白 | 集計の母数がずれる |
| 表記ゆれ | 「東京都」と「東京」が混在 | 別の場所として二重カウントされる |
| 型まちがい | 数字の列に「N/A」という文字が混入 | 合計や平均が計算できない |
| 重複 | 同じ注文が2行ある | 売上が実際の2倍になる |
| 外れ値 | 売上100万円の中に1件だけ1億円 | 平均が大きく歪む |
AIにデータを渡して乱れを探してもらう
ステップ1:データを貼り付ける
スプレッドシートやCSVから、確認したい範囲を選んでコピーし、AIチャットに貼り付けます。100行を超えるデータは、最初の50行だけでも十分です。
ステップ2:「乱れを見つけて」とお願いする
以下のプロンプト(=AIへの指示文)をコピーして、データのあとに貼り付けてください。
以下のデータの品質をチェックしてください。
次の5つの観点でそれぞれ問題がないか調べて、表形式でまとめてください。
1. 欠損(空欄やnullがある行)
2. 表記ゆれ(同じ意味なのに書き方が違う値)
3. 型まちがい(数字の列に文字が混じっているなど)
4. 重複(まったく同じ行や、キーが重複している行)
5. 外れ値(他と比べて極端に大きい・小さい値)
問題が見つかったものだけ、「どの列・どの行・何がおかしいか」を具体的に教えてください。
問題がない観点は「問題なし」と一言で構いません。
良い例:
- データを先に貼り、そのあとにプロンプトを書く → AIが表の構造を把握した上で分析してくれる
- 「表形式でまとめて」と出力形式を指定する → 結果が見やすくなる
悪い例:
- 「データをチェックして」だけ書く → 何を調べるか曖昧で、AIの回答がばらつく
- 1000行をまるごと貼る → AIの処理が遅くなったり、途中で切れたりする
ステップ3:結果を読み取る
AIが返してくれた結果を確認します。こんな形の表が返ってくるはずです。

| 観点 | 問題あり? | 詳細 |
|---|---|---|
| 欠損 | あり | 7行目・15行目の「電話番号」が空欄 |
| 表記ゆれ | あり | 「東京都」「東京」「とうきょう」の3パターン |
| 型まちがい | 問題なし | — |
| 重複 | あり | 3行目と12行目が完全一致 |
| 外れ値 | 問題なし | — |
結果をメモにまとめる
見つかった乱れを「どう直すか」のメモとして残しましょう。以下のテンプレートをコピーして使えます。
# データ品質チェックメモ
- 対象: ○○○のデータ(○行 × ○列)
- チェック日: 2026-XX-XX
見つかった問題
- 欠損: ○行目の「○○」列が空欄 → 対応: 担当者に確認 / 削除
- 表記ゆれ: 「○○」と「○○」が混在 → 対応: ○○に統一
- 重複: ○行目と○行目が完全一致 → 対応: 片方を削除
次のアクション
- ○○を修正する
- 修正後、もう一度AIでチェックする
このメモが、このレッスンの**成果物**(=あなたが作るもの)です。
よくあるつまずきと対処法
「問題なし」と返ってきたけど、本当に大丈夫?」 → 10行程度のきれいなサンプルだと乱れが少ないのは自然です。実際の業務データや、意図的に乱れを入れた練習データで試してみてください。
「結果が長すぎて読みきれない」 → AIに「上位5件だけ教えて」と追加で聞きましょう。全部を一度に直す必要はありません。影響が大きいものから対処するのがコツです。
「表記ゆれかどうか自分では判断できない」 → AIに「この2つの値は同じ意味ですか?」と聞き返せば、判断材料をくれます。最終判断はあなたがすればOKです。
完了チェック
以下がすべて「はい」なら、このレッスンは完了です。
- AIにデータを渡して、5つの観点でチェックを依頼できた
- 結果を読み取り、どの列・行に問題があるか把握できた
- 「データ品質チェックメモ」を作成できた
種類: markdown_doc
検証: basic_manual_check_v1
証跡証跡成果物が正しく作れたことを確認するためのチェックリストです(例: ブラウザで動作する、フォーム送信で値が保存される)。
メディア