Dữ liệu trùng lặp là một vấn đề khá phổ biến khi làm việc với Excel, đặc biệt là khi tổng hợp dữ liệu từ nhiều nguồn khác nhau. Việc này không chỉ gây khó khăn trong việc phân tích mà còn có thể dẫn đến những sai sót không đáng có. Hôm nay, mình muốn chia sẻ một vài cách mà mình thường dùng để xử lý dữ liệu trùng lặp một cách nhanh chóng và hiệu quả.
Đầu tiên, cách đơn giản nhất là sử dụng tính năng Remove Duplicates có sẵn trong Excel. Bạn chỉ cần chọn vùng dữ liệu, vào tab Data, chọn Remove Duplicates và chọn các cột mà bạn muốn kiểm tra trùng lặp. Cách này rất nhanh nhưng sẽ xóa bỏ luôn các bản ghi trùng.
Nếu bạn muốn giữ lại tất cả các bản ghi nhưng chỉ đánh dấu hoặc lọc ra các bản ghi trùng, bạn có thể sử dụng Conditional Formatting. Chọn vùng dữ liệu, vào Home -> Conditional Formatting -> Highlight Cells Rules -> Duplicate Values. Bạn có thể chọn cách tô màu để dễ dàng nhận biết.
Một cách nâng cao hơn là dùng công thức kết hợp COUNTIF hoặc SUMPRODUCT. Ví dụ, để đánh dấu các dòng bị trùng dựa trên cột A, bạn có thể dùng công thức mảng trong Conditional Formatting:
=COUNTIF($A$1:A1, A1)>1Hoặc nếu muốn đếm số lần xuất hiện của mỗi giá trị:
=COUNTIF(A:A, A1)Ngoài ra, khi làm việc với các tập dữ liệu lớn, Power Query là một công cụ cực kỳ mạnh mẽ để loại bỏ hoặc nhóm các bản ghi trùng lặp một cách tự động và có thể lặp lại. Tuy hơi mất công tìm hiểu ban đầu nhưng về lâu dài sẽ tiết kiệm rất nhiều thời gian.
Mọi người thường dùng cách nào để xử lý dữ liệu trùng lặp? Có mẹo nào hay hơn không, chia sẻ cho mình với nhé!