Chào các anh chị em trong diễn đàn,
Dạo này mình làm việc với nhiều nguồn dữ liệu khác nhau, và thường xuyên gặp phải tình huống dữ liệu dạng chuỗi (text) chứa các ký tự đặc biệt, ký tự không in được, hoặc các khoảng trắng thừa ở đầu/cuối chuỗi. Điều này gây ra rất nhiều khó khăn khi mình muốn chuẩn hóa dữ liệu để phân tích hoặc nạp vào Excel.
Trước đây, mình hay dùng các hàm Text trong Excel như TRIM, CLEAN, SUBSTITUTE nhưng với lượng dữ liệu lớn thì rất chậm và tốn công. Gần đây, mình bắt đầu khám phá sức mạnh của Power Query và nhận ra nó giải quyết vấn đề này một cách cực kỳ hiệu quả.
Mình muốn chia sẻ một vài bước đơn giản mà mình hay dùng trong Power Query để xử lý:
- Bước 1: Tải dữ liệu vào Power Query Editor.
- Bước 2: Chọn cột chứa dữ liệu chuỗi cần xử lý.
- Bước 3: Sử dụng chức năng Replace Values. Để loại bỏ các ký tự đặc biệt, mình thường vào tab Home -> Replace Values. Trong ô Value To Find, mình để trống (để tìm khoảng trắng thừa) hoặc nhập ký tự đặc biệt muốn loại bỏ. Trong ô Replace With, mình cũng để trống hoặc nhập ký tự thay thế (thường là khoảng trắng).
- Bước 4: Sử dụng chức năng Trim và Clean. Sau khi loại bỏ các ký tự đặc biệt, mình thường dùng Transform -> Format -> Trim để loại bỏ khoảng trắng thừa ở đầu và cuối chuỗi. Tiếp theo, dùng Transform -> Format -> Clean để loại bỏ các ký tự không in được.
- Bước 5: Nạp dữ liệu đã xử lý ra Excel.
Cách này giúp mình tiết kiệm rất nhiều thời gian và đảm bảo tính nhất quán của dữ liệu. Có anh chị em nào có cách xử lý khác hoặc mẹo nào hay hơn thì chia sẻ cho mình với nhé!