Menu

App script quản lý rủi ro cho cá nhân & doanh nghiệp với báo cáo chuẩn định dạng biểu đồ

Tuyển tập các cách làm sạch dữ liệu 'bẩn' trong Excel

Tô Viết Vui 15/03/2026 20:27 231 lượt xem 2 trả lời

Dạo gần đây mình nhận được khá nhiều câu hỏi về việc làm thế nào để xử lý dữ liệu 'bẩn' trong Excel, kiểu như có khoảng trắng thừa, ký tự lạ, hay định dạng không nhất quán. Thực sự, dữ liệu sạch sẽ là nền tảng cho mọi phân tích chính xác. Vì vậy, mình tổng hợp lại một số phương pháp hiệu quả để 'dọn dẹp' dữ liệu, hy vọng sẽ giúp ích cho các bạn.

Đầu tiên, với các khoảng trắng thừa ở đầu, cuối hoặc giữa chuỗi, chúng ta có thể dùng hàm TRIM(). Tuy nhiên, đôi khi còn những khoảng trắng 'đặc biệt' mà TRIM() không xử lý hết. Lúc này, kết hợp CLEAN()TRIM() là một lựa chọn tốt.

Đối với các ký tự không mong muốn, ví dụ như dấu nháy đơn, nháy kép trong các trường văn bản, bạn có thể sử dụng hàm SUBSTITUTE(). Ví dụ, để loại bỏ dấu nháy đơn, bạn dùng:

=SUBSTITUTE(A1, "'", "")

Nếu muốn loại bỏ nhiều loại ký tự khác nhau, có thể lồng nhiều hàm SUBSTITUTE() hoặc dùng kết hợp với REPLACE().

Một vấn đề khác là định dạng số bị lưu dưới dạng văn bản. Cách nhanh nhất để khắc phục là chọn cột dữ liệu, vào mục Data -> Text to Columns, chọn Delimited, bỏ qua bước phân tách cột và chọn định dạng đích là General.

Ngoài ra, tính năng Flash Fill (từ Excel 2013 trở đi) cũng rất mạnh mẽ trong việc nhận diện mẫu và tự động điền dữ liệu dựa trên những gì bạn gõ vào cột bên cạnh. Hãy thử dùng nó khi bạn cần tách tên, họ, hoặc định dạng lại số điện thoại chẳng hạn.

Cuối cùng, nếu bạn làm việc với khối lượng dữ liệu lớn, Power Query (Get & Transform) là công cụ không thể bỏ qua. Nó cho phép bạn thực hiện các thao tác làm sạch, chuyển đổi dữ liệu một cách tự động và có thể lặp lại.

Mọi người còn phương pháp nào hay nữa không, cùng chia sẻ nhé!

2

Tuyệt vời! Chủ đề này rất hữu ích, bản thân mình cũng thường xuyên phải xử lý dữ liệu 'lộn xộn'. Hàm TRIM() đúng là cứu cánh cho các khoảng trắng thừa. Mình cũng hay dùng kết hợp với chức năng "Find and Replace" để loại bỏ các ký tự không mong muốn hoặc các dấu phẩy, chấm lặp lại.

Không biết bạn đã đề cập đến cách xử lý các trường hợp định dạng ngày tháng lộn xộn chưa? Đôi khi nhìn thì giống nhau nhưng lại là text, gây khó khăn khi tính toán.

5

Mình thấy chủ đề này rất thiết thực, cảm ơn bạn đã tổng hợp! Ngoài TRIM() để xử lý khoảng trắng, mình còn hay dùng kết hợp chức năng "Text to Columns" với tùy chọn "Fixed width" hoặc "Delimited" để tách và chuẩn hóa dữ liệu khi nó bị định dạng lộn xộn, ví dụ như ngày tháng kiểu "dd/mm/yyyy" và "mm-dd-yyyy" lẫn lộn.

Với các ký tự lạ, ngoài "Find and Replace", đôi khi mình còn dùng hàm CLEAN() để loại bỏ các ký tự không in được.

Liệu bạn có kinh nghiệm nào xử lý trường hợp dữ liệu bị trùng lặp mà không phải là bản sao y hệt không? Ví dụ, tên công ty viết tắt khác nhau một chút.

3

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký