メインコンテンツへスキップ
レッスン一覧に戻る
このレッスンの前に学ぶと理解しやすい関連レッスン

必須ではありませんが、先に目を通しておくとスムーズに進められるレッスンがあります。

atom.data-analyst.detect-data-issues

データの乱れを見つける

データの乱れを見つける スプレッドシートを使っていて、「あれ、合計が合わない」「同じ会社なのに名前が微妙に違う」と感じたことはありませんか? これが データの乱れ です。料理にたとえると、冷蔵庫の中に賞味期限切れの...

detect-data-quality-issuesdetect-data-quality-issues「detect data quality issues」に関するスキルがこのレッスンで身につきます。
想定時間未設定公開状態: draft
学習メモ

成果物成果物このレッスンが終わったとき、あなたの手元に残る具体的な成果物です(例: 公開済みの Web ページ、動作するフォームなど)。

種類: markdown_doc検証: basic_manual_check_v1

証跡証跡成果物が正しく作れたことを確認するためのチェックリストです(例: ブラウザで動作する、フォーム送信で値が保存される)。

screenshot

メディアメディアレッスン内に出てくる図や動画のスロットです。実際の画面やイメージで理解を補助します。

diagramscreen_capture

レッスン本文

データの乱れを見つける

スプレッドシートを使っていて、「あれ、合計が合わない」「同じ会社なのに名前が微妙に違う」と感じたことはありませんか? これがデータの乱れです。料理にたとえると、冷蔵庫の中に賞味期限切れの食材や、ラベルのない容器が混ざっている状態です。そのまま料理を始めると、味がおかしくなったり、お腹を壊したりしますよね。データ分析も同じで、乱れたデータのまま集計すると、間違った結論にたどり着いてしまいます。

このレッスンでは、AIチャット(ChatGPTやClaude)にデータを渡して、「どこがおかしいか見つけて」とお願いする方法を学びます。あなた自身が1行1行チェックする必要はありません。AIに聞き方のコツを覚えれば、15分もかからずデータの問題点リストが手に入ります。

前提を確認する

このレッスンを始める前に、以下が済んでいることを確認してください。

  • AIチャットツール(ChatGPT・Claude など)にログインできる
  • 「データを読み込んで中身を確認する」レッスンを終えている(データの貼り付け方がわかる)
  • 確認したいデータがある(サンプルでもOK。10〜100行くらいの表がちょうどいい)

データの「乱れ」とは何かを知る

データの乱れは、大きく5つのパターンに分かれます。まずはどんな種類があるか頭に入れておきましょう。

データ品質5パターン

パターン具体例放置するとどうなる?
欠損(空欄)電話番号の列が空白集計の母数がずれる
表記ゆれ「東京都」と「東京」が混在別の場所として二重カウントされる
型まちがい数字の列に「N/A」という文字が混入合計や平均が計算できない
重複同じ注文が2行ある売上が実際の2倍になる
外れ値売上100万円の中に1件だけ1億円平均が大きく歪む

AIにデータを渡して乱れを探してもらう

ステップ1:データを貼り付ける

スプレッドシートやCSVから、確認したい範囲を選んでコピーし、AIチャットに貼り付けます。100行を超えるデータは、最初の50行だけでも十分です。

ステップ2:「乱れを見つけて」とお願いする

以下のプロンプト(=AIへの指示文)をコピーして、データのあとに貼り付けてください。

以下のデータの品質をチェックしてください。
次の5つの観点でそれぞれ問題がないか調べて、表形式でまとめてください。
1. 欠損(空欄やnullがある行)
2. 表記ゆれ(同じ意味なのに書き方が違う値)
3. 型まちがい(数字の列に文字が混じっているなど)
4. 重複(まったく同じ行や、キーが重複している行)
5. 外れ値(他と比べて極端に大きい・小さい値)

問題が見つかったものだけ、「どの列・どの行・何がおかしいか」を具体的に教えてください。
問題がない観点は「問題なし」と一言で構いません。

良い例:

  • データを先に貼り、そのあとにプロンプトを書く → AIが表の構造を把握した上で分析してくれる
  • 「表形式でまとめて」と出力形式を指定する → 結果が見やすくなる

悪い例:

  • 「データをチェックして」だけ書く → 何を調べるか曖昧で、AIの回答がばらつく
  • 1000行をまるごと貼る → AIの処理が遅くなったり、途中で切れたりする

ステップ3:結果を読み取る

AIが返してくれた結果を確認します。こんな形の表が返ってくるはずです。

AI結果の確認画面

観点問題あり?詳細
欠損あり7行目・15行目の「電話番号」が空欄
表記ゆれあり「東京都」「東京」「とうきょう」の3パターン
型まちがい問題なし
重複あり3行目と12行目が完全一致
外れ値問題なし

結果をメモにまとめる

見つかった乱れを「どう直すか」のメモとして残しましょう。以下のテンプレートをコピーして使えます。

# データ品質チェックメモ
- 対象: ○○○のデータ(○行 × ○列)
- チェック日: 2026-XX-XX

見つかった問題

  1. 欠損: ○行目の「○○」列が空欄 → 対応: 担当者に確認 / 削除
  2. 表記ゆれ: 「○○」と「○○」が混在 → 対応: ○○に統一
  3. 重複: ○行目と○行目が完全一致 → 対応: 片方を削除

次のアクション

  • ○○を修正する
  • 修正後、もう一度AIでチェックする

このメモが、このレッスンの**成果物**(=あなたが作るもの)です。

よくあるつまずきと対処法

「問題なし」と返ってきたけど、本当に大丈夫?」 → 10行程度のきれいなサンプルだと乱れが少ないのは自然です。実際の業務データや、意図的に乱れを入れた練習データで試してみてください。

「結果が長すぎて読みきれない」 → AIに「上位5件だけ教えて」と追加で聞きましょう。全部を一度に直す必要はありません。影響が大きいものから対処するのがコツです。

「表記ゆれかどうか自分では判断できない」 → AIに「この2つの値は同じ意味ですか?」と聞き返せば、判断材料をくれます。最終判断はあなたがすればOKです。

完了チェック

以下がすべて「はい」なら、このレッスンは完了です。

  • AIにデータを渡して、5つの観点でチェックを依頼できた
  • 結果を読み取り、どの列・行に問題があるか把握できた
  • 「データ品質チェックメモ」を作成できた
成果物成果物このレッスンが終わったとき、あなたの手元に残る具体的な成果物です(例: 公開済みの Web ページ、動作するフォームなど)。

種類: markdown_doc

検証: basic_manual_check_v1

証跡とメディア

証跡証跡成果物が正しく作れたことを確認するためのチェックリストです(例: ブラウザで動作する、フォーム送信で値が保存される)。

screenshot

メディア

diagramscreen_capture
学習完了