Chào các bạn,
Mình thấy trong chuyên mục này có nhiều bài viết hay về xử lý dữ liệu, nên hôm nay mình muốn chia sẻ một chút về cách xử lý dữ liệu trùng lặp. Đây là một vấn đề khá phổ biến khi làm việc với Excel, đặc biệt là khi tổng hợp dữ liệu từ nhiều nguồn khác nhau.
Có hai cách chính mình thường dùng:
- Sử dụng tính năng Remove Duplicates có sẵn trong Excel: Đây là cách nhanh nhất cho các bảng dữ liệu đơn giản. Bạn chỉ cần chọn vùng dữ liệu, vào tab Data, chọn Remove Duplicates. Excel sẽ tự động xóa các hàng bị trùng lặp dựa trên các cột bạn chọn. Tuy nhiên, cách này sẽ xóa vĩnh viễn dữ liệu gốc, nên hãy cẩn thận sao lưu trước khi thực hiện.
- Sử dụng Power Query: Đối với các file lớn hoặc cần xử lý phức tạp hơn, Power Query là một công cụ cực kỳ mạnh mẽ. Bạn có thể tải dữ liệu vào Power Query Editor, sau đó vào tab Home, chọn Remove Duplicates. Ưu điểm của Power Query là nó tạo ra một quy trình xử lý tự động, bạn có thể dễ dàng làm mới dữ liệu mà không ảnh hưởng đến file gốc. Ngoài ra, bạn có thể kết hợp với các bước khác như lọc, nhóm dữ liệu để có được kết quả mong muốn.
Ví dụ, nếu bạn muốn loại bỏ các bản ghi trùng lặp dựa trên cả cột 'Email' và 'Tên khách hàng', bạn chỉ cần chọn hai cột này trong cửa sổ Remove Duplicates của Power Query.
Các bạn thường xử lý dữ liệu trùng lặp bằng cách nào? Chia sẻ thêm kinh nghiệm nhé!