Chào các bác, dạo này em đang phải xử lý một đống dữ liệu khách hàng, mà nó cứ bị trùng lặp ở nhiều cột khác nhau, ví dụ như Cùng Tên + Cùng Ngày Sinh nhưng khác Địa Chỉ. Dùng cách Remove Duplicates thông thường thì chỉ loại bỏ được nếu trùng hết tất cả các cột, hoặc chọn 1 cột cố định. Em loay hoay mãi không biết xử lý sao cho đúng ý. May quá, hôm qua mò mẫm trong Power Query thì phát hiện ra cách làm hay, chia sẻ lại cho anh em nào đang gặp vấn đề tương tự.
Vấn đề của em là làm sao để loại bỏ các dòng trùng lặp dựa trên một tập hợp các cột được chọn, chứ không phải tất cả hoặc chỉ một. Ví dụ, em muốn loại bỏ các dòng mà có cùng Tên Khách Hàng và Số Điện Thoại, dù các thông tin khác như Địa Chỉ hay Email có khác nhau.
Cách làm như sau:
- Bước 1: Tải dữ liệu vào Power Query.
- Bước 2: Chọn các cột mà bạn muốn dùng để xác định dữ liệu trùng lặp (ví dụ: Cột 'Tên Khách Hàng', Cột 'Số Điện Thoại').
- Bước 3: Trên tab Home, chọn Remove Rows -> Remove Duplicates. Power Query sẽ tự động hiểu là loại bỏ các dòng mà tổ hợp giá trị của các cột đã chọn là trùng nhau.
Lưu ý: Nếu bạn muốn giữ lại dòng đầu tiên hoặc dòng cuối cùng trong nhóm trùng lặp, Power Query mặc định sẽ giữ lại dòng đầu tiên. Nếu muốn giữ lại dòng cuối, bạn có thể sắp xếp dữ liệu theo một cột ngày tháng hoặc ID tăng dần trước khi thực hiện Remove Duplicates.
Cách này rất tiện lợi, giúp em xử lý xong đống dữ liệu mà không cần dùng đến các công thức phức tạp hay VBA. Hy vọng chia sẻ này hữu ích cho các bác!