Dạo gần đây mình nhận được khá nhiều câu hỏi về việc làm thế nào để xử lý dữ liệu 'bẩn' trong Excel, kiểu như có khoảng trắng thừa, ký tự lạ, hay định dạng không nhất quán. Thực sự, dữ liệu sạch sẽ là nền tảng cho mọi phân tích chính xác. Vì vậy, mình tổng hợp lại một số phương pháp hiệu quả để 'dọn dẹp' dữ liệu, hy vọng sẽ giúp ích cho các bạn.
Đầu tiên, với các khoảng trắng thừa ở đầu, cuối hoặc giữa chuỗi, chúng ta có thể dùng hàm TRIM(). Tuy nhiên, đôi khi còn những khoảng trắng 'đặc biệt' mà TRIM() không xử lý hết. Lúc này, kết hợp CLEAN() và TRIM() là một lựa chọn tốt.
Đối với các ký tự không mong muốn, ví dụ như dấu nháy đơn, nháy kép trong các trường văn bản, bạn có thể sử dụng hàm SUBSTITUTE(). Ví dụ, để loại bỏ dấu nháy đơn, bạn dùng:
=SUBSTITUTE(A1, "'", "")Nếu muốn loại bỏ nhiều loại ký tự khác nhau, có thể lồng nhiều hàm SUBSTITUTE() hoặc dùng kết hợp với REPLACE().
Một vấn đề khác là định dạng số bị lưu dưới dạng văn bản. Cách nhanh nhất để khắc phục là chọn cột dữ liệu, vào mục Data -> Text to Columns, chọn Delimited, bỏ qua bước phân tách cột và chọn định dạng đích là General.
Ngoài ra, tính năng Flash Fill (từ Excel 2013 trở đi) cũng rất mạnh mẽ trong việc nhận diện mẫu và tự động điền dữ liệu dựa trên những gì bạn gõ vào cột bên cạnh. Hãy thử dùng nó khi bạn cần tách tên, họ, hoặc định dạng lại số điện thoại chẳng hạn.
Cuối cùng, nếu bạn làm việc với khối lượng dữ liệu lớn, Power Query (Get & Transform) là công cụ không thể bỏ qua. Nó cho phép bạn thực hiện các thao tác làm sạch, chuyển đổi dữ liệu một cách tự động và có thể lặp lại.
Mọi người còn phương pháp nào hay nữa không, cùng chia sẻ nhé!