メインコンテンツへスキップ
レッスン一覧に戻る

atom.data-analyst.standardize-text-fields

表記ゆれを統一する

表記ゆれを統一する あなたのデータに、こんな「表記ゆれ」はありませんか? 「株式会社」「(株)」「㈱」が混ざっている 「東京都」「東京」がバラバラ 全角カタカナと半角カタカナが混在している これはまるで、レシピに「...

standardize-text-with-aistandardize-text-with-ai「standardize text with ai」に関するスキルがこのレッスンで身につきます。
想定時間未設定公開状態: draft
学習メモ

成果物成果物このレッスンが終わったとき、あなたの手元に残る具体的な成果物です(例: 公開済みの Web ページ、動作するフォームなど)。

種類: markdown_doc検証: basic_manual_check_v1

証跡証跡成果物が正しく作れたことを確認するためのチェックリストです(例: ブラウザで動作する、フォーム送信で値が保存される)。

screenshot

メディアメディアレッスン内に出てくる図や動画のスロットです。実際の画面やイメージで理解を補助します。

diagramscreen_capture

レッスン本文

表記ゆれを統一する

あなたのデータに、こんな「表記ゆれ」はありませんか?

  • 「株式会社」「(株)」「㈱」が混ざっている
  • 「東京都」「東京」がバラバラ
  • 全角カタカナと半角カタカナが混在している

これはまるで、レシピに「さとう」「砂糖」「上白糖」が入り混じっているようなものです。同じ材料なのに名前が違うと、まとめて数えるのが難しくなりますよね。データ分析でも同じことが起きます。「株式会社山田」と「(株)山田」が別の会社として数えられてしまい、正しい集計ができなくなるのです。

この Atom では、AI ツール(=ChatGPT や Claude など、人工知能を使った対話型のウェブサービス)を活用して、データの表記をきれいに統一する方法を15分で学びます。

表記統一フロー


準備する

始める前に、次のものを用意してください。

  • スプレッドシート(=Google スプレッドシートや Excel などの表計算ソフト)に入った表記ゆれがありそうなデータ
  • AI ツール(ChatGPT、Claude、Gemini など)をブラウザで開いた状態

データがない場合は、以下のサンプルをスプレッドシートにコピーして練習できます。

会社名
株式会社山田
(株)山田
㈱山田
株式会社佐藤
(株)佐藤
ヤマダショウジ
ヤマダショウジ

表記ゆれを見つける

まずは、あなたのデータの中にどんな表記ゆれが潜んでいるか、AI に見つけてもらいましょう。

やること

  1. スプレッドシートで、ゆれがありそうな列(=縦のデータのまとまり)を選ぶ
  2. その列のデータをすべてコピーする(Ctrl+C / Cmd+C)
  3. AI ツールの入力欄に貼り付けて、以下のように聞く

AI に聞くプロンプト例

良い例(具体的で、AI が何をすべきか明確):

以下のデータに表記ゆれがあります。同じ意味なのに書き方が違うものをグループごとにまとめて列挙してください。

データ: 株式会社山田, (株)山田, ㈱山田, 株式会社佐藤, (株)佐藤

悪い例(漠然すぎて、AI が何を返せばいいかわからない):

このデータをきれいにして

ポイントは「何をしてほしいか」を具体的に伝えることです。料理のレシピも「適当に味付け」より「小さじ1杯の塩」のほうが上手くいきますよね。


統一ルールを決める

AI が見つけた表記ゆれの一覧を確認したら、「どの書き方に揃えるか」のルールを決めます。このステップが一番大切です。ルールなしに統一すると、あとから「なぜこの表記にしたの?」とわからなくなります。

AI にルールを相談するプロンプト例

上で見つかった表記ゆれについて、ビジネス文書で一般的な表記に統一するルールを提案してください。 理由も一緒に教えてください。

AI が提案してくれたルールを確認し、自分のデータに合うように調整しましょう。

良い統一ルールの例

表記ゆれを以下のルールで統一してください。

  • 「株式会社」「(株)」「㈱」→ すべて「株式会社」に揃える
  • 都道府県名は省略せず最後まで書く(例:「東京」→「東京都」)
  • 半角カタカナはすべて全角カタカナにする

悪い統一ルールの例

「(株)」は「株式会社」にして、「株式会社」は「(株)」にして

このように矛盾した指示を出すと、AI も混乱します。「AをBにする」という一方向のルールをシンプルに決めましょう。


AI にデータを統一してもらう

ルールが決まったら、AI に統一後のデータを出力してもらいます。

AI に送るプロンプト例

以下のルールに従って、データの表記を統一してください。 統一後のデータだけを、元と同じ順番で出力してください。

ルール:

  • 「株式会社」「(株)」「㈱」→ すべて「株式会社」
  • 半角カタカナ → 全角カタカナ

データ: 株式会社山田 (株)山田 ㈱山田 ヤマダショウジ ヤマダショウジ

結果をスプレッドシートに反映する

  1. AI が出力したデータをコピーする
  2. スプレッドシートの元の列の隣に新しい列を作る(元データは消さずに残す)
  3. 新しい列に貼り付ける

大事なポイント: 元のデータは絶対に消さないでください。もし統一結果に間違いがあったとき、元に戻せなくなります。料理で言えば、アレンジ前のレシピを捨てないのと同じです。

AI統一作業の画面イメージ


結果を確認する

統一したデータを必ず確認しましょう。AI は優秀ですが、100%正確とは限りません。

確認チェックリスト

  • 行数の確認: 元データと統一後のデータの行数は同じか?(AI がデータを勝手に省略・削除することがあります)
  • ルール通りか: 指定した統一ルールどおりに変換されているか?
  • 意図しない変更がないか: 統一対象でない部分まで変わっていないか?
  • 文字化けがないか: 全角・半角変換でおかしな文字が出ていないか?

問題があったときの対処法

おかしい部分を見つけたら、AI に具体的に伝えてやり直しましょう。

3行目の「ヤマダショウジ」が変換されていません。全角カタカナ「ヤマダショウジ」に統一してください。


つまずきポイント

よくあるトラブルと、その解決法をまとめました。

トラブル原因解決法
AI がデータの一部を消してしまうデータが多すぎて途中で途切れたデータを50行ずつなど小分けにして送る
漢字の旧字体・新字体が混在している「斉藤」「齋藤」「斎藤」など統一ルールに明記して AI に伝える
半角スペースと全角スペースが混在見た目では気づきにくい「スペースも半角に統一して」とルールに追加する
統一したはずなのにまだゆれがある目視で見落としやすいパターンがある統一後にもう一度 AI に「まだ表記ゆれがないか確認して」と聞く

完了を確認する

以下がすべて「はい」なら、この Atom は完了です。

  1. 表記ゆれを見つけられた: AI にデータを渡して、ゆれのパターンを列挙してもらえた
  2. 統一ルールを作れた: 「AをBにする」という一方向のルールを明文化できた
  3. AI で統一できた: ルールに従って変換されたデータをスプレッドシートに反映できた
  4. 結果を検証できた: 行数・ルール適合・意図しない変更がないことを確認できた

完了の証拠として、統一前と統一後のスプレッドシートのスクリーンショットを保存してください。元データの列と、統一後の列が並んでいる状態がベストです。

成果物成果物このレッスンが終わったとき、あなたの手元に残る具体的な成果物です(例: 公開済みの Web ページ、動作するフォームなど)。

種類: markdown_doc

検証: basic_manual_check_v1

証跡とメディア

証跡証跡成果物が正しく作れたことを確認するためのチェックリストです(例: ブラウザで動作する、フォーム送信で値が保存される)。

screenshot

メディア

diagramscreen_capture
前提 atom

必須

なし

あると楽

なし

学習完了