Chào các anh chị em trong diễn đàn,
Mình đang làm báo cáo quản trị và gặp một vấn đề khá nan giải với danh sách khách hàng. File excel của mình có một danh sách rất dài các khách hàng, nhưng lại bị trùng lặp thông tin (ví dụ: cùng một khách hàng nhưng có 2 dòng, có thể do nhập liệu hoặc từ nhiều nguồn khác nhau). Việc này làm sai lệch số liệu và gây khó khăn khi phân tích.
Mình đã thử qua chức năng Remove Duplicates nhưng nó chỉ loại bỏ các dòng trùng lặp hoàn toàn, mà trong trường hợp của mình, có những dòng chỉ trùng một vài cột quan trọng như Tên khách hàng và Mã số thuế, còn các cột khác (như ngày giao dịch, số tiền) thì khác nhau.
Có anh chị em nào có kinh nghiệm xử lý trường hợp này chưa ạ? Mình đang tìm cách để:
- Xác định được các bản ghi bị trùng lặp dựa trên một vài cột chính (ví dụ: Tên KH + Mã số thuế).
- Giữ lại một bản ghi duy nhất (có thể là bản ghi đầu tiên hoặc bản ghi có thông tin cập nhật nhất).
- Loại bỏ các bản ghi còn lại.
Mình có nghĩ đến việc dùng Power Query nhưng chưa quen lắm. Liệu có cách nào dùng các hàm Excel thông thường như COUNTIFS, SUMIFS hoặc PivotTable để giải quyết không? Hoặc có cao kiến nào khác không ạ?
Rất mong nhận được sự giúp đỡ từ mọi người!