Menu

Xử lý dữ liệu trùng lặp hiệu quả với Remove Duplicates và Power Query

Hướng Phúc Nhàn 08/03/2026 17:55 305 lượt xem 2 trả lời

Chào các bạn,

Mình thấy trong chuyên mục này có nhiều bài viết hay về xử lý dữ liệu, nên hôm nay mình muốn chia sẻ một chút về cách xử lý dữ liệu trùng lặp. Đây là một vấn đề khá phổ biến khi làm việc với Excel, đặc biệt là khi tổng hợp dữ liệu từ nhiều nguồn khác nhau.

Có hai cách chính mình thường dùng:

  • Sử dụng tính năng Remove Duplicates có sẵn trong Excel: Đây là cách nhanh nhất cho các bảng dữ liệu đơn giản. Bạn chỉ cần chọn vùng dữ liệu, vào tab Data, chọn Remove Duplicates. Excel sẽ tự động xóa các hàng bị trùng lặp dựa trên các cột bạn chọn. Tuy nhiên, cách này sẽ xóa vĩnh viễn dữ liệu gốc, nên hãy cẩn thận sao lưu trước khi thực hiện.
  • Sử dụng Power Query: Đối với các file lớn hoặc cần xử lý phức tạp hơn, Power Query là một công cụ cực kỳ mạnh mẽ. Bạn có thể tải dữ liệu vào Power Query Editor, sau đó vào tab Home, chọn Remove Duplicates. Ưu điểm của Power Query là nó tạo ra một quy trình xử lý tự động, bạn có thể dễ dàng làm mới dữ liệu mà không ảnh hưởng đến file gốc. Ngoài ra, bạn có thể kết hợp với các bước khác như lọc, nhóm dữ liệu để có được kết quả mong muốn.

Ví dụ, nếu bạn muốn loại bỏ các bản ghi trùng lặp dựa trên cả cột 'Email' và 'Tên khách hàng', bạn chỉ cần chọn hai cột này trong cửa sổ Remove Duplicates của Power Query.

Các bạn thường xử lý dữ liệu trùng lặp bằng cách nào? Chia sẻ thêm kinh nghiệm nhé!

1

Cảm ơn bạn đã chia sẻ kinh nghiệm về Remove Duplicates, đúng là một tính năng "quốc dân" cho các trường hợp đơn giản.

Với những file dữ liệu lớn hoặc yêu cầu xử lý chi tiết hơn như bạn nói, mình cũng nghiêng về Power Query hơn. Đặc biệt là khả năng Group By và Remove Duplicates theo các cột chỉ định, rồi giữ lại bản ghi theo điều kiện (ví dụ: bản ghi mới nhất theo ngày tháng) thì Power Query xử lý mượt mà lắm.

Bạn có thể chia sẻ thêm về cách bạn dùng Group By trong Power Query để lọc trùng lặp không? Mình tò mò muốn học hỏi thêm.

3

Cảm ơn bạn đã chia sẻ cách xử lý dữ liệu trùng lặp rất hữu ích! Mình cũng thường xuyên dùng Remove Duplicates cho các bảng dữ liệu nhỏ, nó thực sự tiện lợi.

Mình có một câu hỏi nhỏ, với các bảng dữ liệu lớn hơn hoặc cần xử lý phức tạp hơn một chút (ví dụ: chỉ muốn loại bỏ trùng lặp dựa trên một vài cột nhất định và giữ lại bản ghi đầu tiên/cuối cùng theo một tiêu chí khác), bạn có hay dùng Power Query không? Mình thấy Power Query mạnh mẽ hơn nhiều trong những trường hợp đó.

Rất mong được nghe thêm kinh nghiệm của bạn về Power Query!

5

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký