Chào mọi người, mình vừa tham gia một lớp học Excel Offline rất hay về chủ đề xử lý dữ liệu trùng lặp. Lớp học này thực sự giúp mình mở mang rất nhiều kiến thức và có thêm những công cụ hữu ích để giải quyết công việc.
Trước đây, khi gặp phải các bảng dữ liệu có nhiều dòng bị lặp, mình thường mất khá nhiều thời gian để lọc và xóa thủ công. Nhưng sau buổi học, mình đã biết thêm nhiều cách hiệu quả hơn:
- Sử dụng Conditional Formatting để tô màu các ô trùng lặp: Đây là cách trực quan nhất để nhận biết dữ liệu dư thừa. Công thức mình hay dùng là
=COUNTIF(A:A,A1)>1để tô màu các giá trị lặp lại trong cột A. - Dùng tính năng Remove Duplicates: Đây là công cụ có sẵn trong Excel, rất mạnh mẽ và nhanh chóng. Chỉ cần vài thao tác chọn cột và nhấn OK là xong. Tuy nhiên, cần lưu ý là nó sẽ xóa luôn dữ liệu gốc, nên tốt nhất nên sao lưu trước khi thực hiện.
- Kết hợp Advanced Filter: Tính năng này cho phép lọc ra các bản ghi duy nhất và copy sang một vị trí khác mà không làm ảnh hưởng đến dữ liệu gốc. Rất hữu ích khi bạn muốn giữ lại cả bản gốc và bản đã xử lý.
- Sử dụng Power Query: Đây là công cụ mình tâm đắc nhất sau buổi học. Power Query có khả năng Group By và Remove Duplicates cực kỳ mạnh mẽ, đặc biệt với các file dữ liệu lớn. Nó giúp tự động hóa quy trình làm sạch dữ liệu, chỉ cần refresh là có kết quả mới nhất.
Nếu bạn nào cũng đang vật lộn với vấn đề dữ liệu trùng lặp, mình khuyên nên tìm hiểu kỹ các phương pháp này. Đặc biệt là Power Query, nó sẽ là một trợ thủ đắc lực cho công việc của chúng ta.
Có ai có kinh nghiệm hay mẹo nào khác để xử lý dữ liệu trùng lặp không, chia sẻ cho mọi người cùng học hỏi nhé!