- ベストアンサー
エクセルの重複データについて教えて下さい。
エクセルで作った住所録データファイル(1)、(2)、(3)があります。 それをひとつのファイルにして重複データをまとめて欲しいと言われました。 住所録はそれぞれに数百件ずつ入っており、会社名が全角だったり半角だったりハイフンが入っていたりバラバラの状態です。 例えば (1)には、株式会社 ABCDE (2)には、(株)ABCED (3)には、AB-cde Co., Ltd と言う感じです。 「あいまい検索みたいな感じで何とかして~」と言われましたが 関数だけで何とかなる問題なのでしょうか。 ちなみに関数は基本的なもの(COUNT、IF、VLOOKUPなど)しか分かりません。 派遣初日にしての難しい課題に参っています。。 いい方法があったら教えてください。
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
>「あいまい検索みたいな感じで何とかして~」と言われましたが 関数だけで何とかなる問題なのでしょうか。 エクセルを知らない人の言うことです。 ーー 下記はソート法というべきもの。経験からこれが良いと思う。関数では類似を見つけるのに融通が利かない。 一度前もって関数で最初にチェックするのは良いかもしてない。その関数はわかるかな。チェックの手助けになるだけ。 残り2ファイルを手作業で下にコピペ 新たに住所列の作業列をコピーして作る 前部分の株式会社(前株と言ったりする)など置換操作で削除する。 会社名にアラビア数字の会社は正式かどうか、上司の聞いたほうが良い。 文字は全角で統一する(エクセルにJIS関数有り) 作業列の修正会社名でソートする 上の行から人間(質問者)が同じ会社ではないかチェックしていく。総合的判断です。 対照表(文書)を作って、同一としたい会社は、上司の了解(印)を取る。(責任の問題・文書主義)-これを入社間もない人にやらすのは重要データなら、本当はいけない。 疑わしいものは、一覧表にして、まとめて、上司に尋ねて了解をとること。勝手な独断は質問者に責任がかかってきて危険。 ーー あと電話番号列があればソートなどして、チェックし同じ番号で似ている会社名は要注意。補強情報を参考にする。 フリガナ、略称などあればそれでもソートしておなじや似ているものが無いかチェックする。
その他の回答 (3)
- myi333
- ベストアンサー率34% (10/29)
同じような作業をした経験があります。最終的に同じ会社かどうかを判断するのは人以外にないので、同じ会社であるかを判断して重複データを削除するのは社員にしてもらうように話し合う方がいいと思います。派遣初日では後々問題が起こります。 今の状態は単なる文字の羅列でしかなく、役に立つデータとは言えません。どこの会社でもこのようなデータを持っていて、IT化の妨げになっています。手作業が多いですが関数とマクロが出来れば2日で6までできるかな?手順だけなので具体的な関数やマクロは別に質問をしてください。 データに、会社名・住所・郵便番号・電話番号がある場合の作業手順 1 完成後のフィールドを検討する ・主要なフィールドは、会社コード 会社名 県名 市町村名 番地 建物名 郵便番号 市外局番 市内局番-電話番号 ・携帯番号・メールアドレス・担当者等のフィールドも追加する ・本店・支店・部署フィールド(このフィールドの分け方が一番悩む、作成途中は備考欄を使うとよい) ・★元データのコードフィールド(完成したら消す) ・自社担当者またはチェック済みフィールド(だれがチェックしたか解る、リストから入力にする) 2 すべてのデータを一つのファイルにまとめる、量が多いですががんばって手作業でしてください ・★作業前に元データにコード列を追加(データが失われる事故防止用) ここからはコピーファイルで作業します ・セルの結合を探して一つ一つ結合なしにします。(データが入っているので判断が必要なのです) ・値貼り付けを使って関数を消す ・数字がシリアル値→日付になっていないか調べる ・各ファイルの列の並び順を同じにしてから、一つのファイルにまとめます 3 電話番号と郵便番号の列を全角数字を半角数字に置き換える、(検索・置換をつかえば10回同じ作業を繰返せば済みます) 4 市外局番が入っていない電話番号もあると思われますが、市外局番を取り出して分ける(関数を使う) 5 郵便番号のハイフンはユーザー定義の書式設定に統一(住所の差込み印刷をする場合ないほうが便利)、電話番号もどちらかに統一 (ハイフンを一度に消す方法は、列を選択してから検索に(-)置換に(空白)で一気に消します) 6 都道府県・市町村など住所フィールドを分ける(文字列検索関数を使います) ※以上でExcelで使えるデータがほぼ出来上がります。 7 住所または郵便番号で並べ替え(郵便番号間違いはこの段階で見つかるので文字の色を変えるなど印をつける) 8 電話番号順に並べ替える(局番が同じなら同じ会社である確率が高い、電話番号が一つだけの会社はほとんどないため) ※この段階で正社員にチェックして貰い、同じ会社を削除してもらいます。一次選別なので絶対に不要なデータだけ削除します。 同じ会社で電話番号違いは備考欄に記入・調べて訂正する項目は色を変える等ルールを決めて社員さんの意見を積極的に取り入れるようにします。 また、フィールドも希望を聞いて変更しましょう。 《〇銀行 △支店 営業部》 などの本・支店・部課名の書き方ルールを決めます 9 最後に付け加えると便利な機能 ・最終行に行を更新したら日付が自動で入る関数を設定します。住所禄は常に変わります、最新のデータかどうか判断するのに更新日を自動入力されると信頼性が増します。 ・使い方のルールをコメントで書き込む ・日本語入力を変更して電話番号列など数字の列は半角にする ・郵便番号から住所を入力が使えれば設定する ・リストから入力出来る箇所を検討する ※セルの結合は使わないようにしましょう(並替えもオートフィルターも使えなくなります、) 10 名刺や電話帳で会社の正式名称や文字の誤入力を修正。 11 実際に使いながら修正
お礼
関数は基本的なものでマクロは使えません。 いろいろな方法があるのですね。 勉強して参考にしてみたいと思います。 回答ありがとうございました。
- poti1234
- ベストアンサー率17% (262/1533)
住所録なんで 社名 住所 電話番号とかは1社につき1コってことですよねえ ただ社名の書き方がいろいろあって重複ってこと? 電話番号でソートして同じのを削除で簡単な作業に思いますが 私の勘違いなのかな? そうならすみません・・・
お礼
回答ありがとうございます。 全部のファイルは見ていないのですが 電話番号は入っていると思います。 やってみます^^
- DJ-Potato
- ベストアンサー率36% (692/1917)
最終的にふたつの会社が同じものかどうかは人間の目で確認する必要がありますので、うまくソートできるかどうかがポイントですね。 SUBSTITUTE関数やTRIM関数などを使い、余計な文字を省いて並べ替えするといいでしょうか。 ところで、住所録なら、住所や電話番号からソートして、同じなら統合して、といった感じではダメですか?
お礼
SUBSTITUTE関数、TRIM関数はじめて聞きました。 そうですよね。 電話番号でチェックすればできそうですね・・。 会社名でと言われたのでそこばかり考えてました。 その方向で上司に提案してみたいと思います。 ありがとうございました。
お礼
詳しいアドバイスありがとうございます。 最初にする関数のチェックはCOUNTIFでいいんでしょうか。 今日50000行くらいのデータにCOUNTIFで重複チェックをかけたら 重くなってものスゴい時間がかかってしまいました。 ソート法で二重三重チェックですね。 かなりの数がありそうですが、、がんばります。