Menu

Xử lý dữ liệu trùng lặp trong danh sách khách hàng bằng Excel

Bạch Xuân Cát 18/03/2026 00:17 361 lượt xem 2 trả lời

Chào các anh chị em trong diễn đàn,

Mình đang làm báo cáo quản trị và gặp một vấn đề khá nan giải với danh sách khách hàng. File excel của mình có một danh sách rất dài các khách hàng, nhưng lại bị trùng lặp thông tin (ví dụ: cùng một khách hàng nhưng có 2 dòng, có thể do nhập liệu hoặc từ nhiều nguồn khác nhau). Việc này làm sai lệch số liệu và gây khó khăn khi phân tích.

Mình đã thử qua chức năng Remove Duplicates nhưng nó chỉ loại bỏ các dòng trùng lặp hoàn toàn, mà trong trường hợp của mình, có những dòng chỉ trùng một vài cột quan trọng như Tên khách hàng và Mã số thuế, còn các cột khác (như ngày giao dịch, số tiền) thì khác nhau.

Có anh chị em nào có kinh nghiệm xử lý trường hợp này chưa ạ? Mình đang tìm cách để:

  • Xác định được các bản ghi bị trùng lặp dựa trên một vài cột chính (ví dụ: Tên KH + Mã số thuế).
  • Giữ lại một bản ghi duy nhất (có thể là bản ghi đầu tiên hoặc bản ghi có thông tin cập nhật nhất).
  • Loại bỏ các bản ghi còn lại.

Mình có nghĩ đến việc dùng Power Query nhưng chưa quen lắm. Liệu có cách nào dùng các hàm Excel thông thường như COUNTIFS, SUMIFS hoặc PivotTable để giải quyết không? Hoặc có cao kiến nào khác không ạ?

Rất mong nhận được sự giúp đỡ từ mọi người!

3

Chào bạn,

Vấn đề dữ liệu trùng lặp trong danh sách khách hàng đúng là đau đầu thật, nhất là khi chỉ trùng một phần thông tin thôi. Chức năng Remove Duplicates đúng là chỉ giải quyết được trường hợp trùng toàn bộ các cột được chọn.

Bạn đã thử dùng Advanced Filter để lọc ra danh sách duy nhất chưa? Hoặc cách khác là dùng Power Query để xử lý và loại bỏ các dòng trùng lặp dựa trên cột mã khách hàng chẳng hạn. Cách này khá mạnh mẽ và linh hoạt đó.

Bạn có thể chia sẻ thêm về cấu trúc file của bạn không? Ví dụ, cột nào là cột định danh khách hàng (mã KH, tên KH...)? Như vậy mọi người sẽ dễ tư vấn hơn.

3

Đồng ý với bạn về việc Remove Duplicates đôi khi không đủ đô với các trường hợp trùng một phần.

Để xử lý triệt để hơn, bạn có thể thử kết hợp Remove Duplicates với Sort trước. Sắp xếp danh sách theo cột định danh khách hàng (ví dụ: Mã KH) rồi mới chạy Remove Duplicates, chọn cột Mã KH để loại bỏ. Cách này thường cho kết quả khá tốt nếu dữ liệu trùng lặp có chung mã.

Ngoài ra, nếu bạn muốn nâng cao hơn nữa, Power Query (Get & Transform Data) là công cụ cực kỳ hữu ích cho việc này. Nó cho phép bạn nhóm dữ liệu theo cột mã KH và giữ lại một dòng duy nhất cho mỗi khách hàng, rất mạnh mẽ và tự động hóa được.

1

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký