Chào các bạn, mình thường xuyên phải làm việc với dữ liệu mà các trường thông tin nằm chung trong một cột, ngăn cách bởi nhiều loại ký tự khác nhau. Ví dụ như chuỗi: "Nguyễn Văn A - 1990/05/15 | Công ty XYZ". Việc tách và chuẩn hóa chuỗi này bằng các hàm Excel thông thường khá mất thời gian.
Gần đây mình có mày mò Power Query và phát hiện ra nó xử lý loại dữ liệu này cực kỳ hiệu quả. Hôm nay mình muốn chia sẻ cách mình đã làm để tách và chuẩn hóa chuỗi trên thành 3 cột riêng biệt: Họ tên, Năm sinh, Tên công ty.
Các bước thực hiện như sau:
- Bước 1: Tải dữ liệu vào Power Query.
- Bước 2: Chọn cột chứa chuỗi cần xử lý.
- Bước 3: Sử dụng chức năng Split Column -> By Delimiter.
- Bước 4: Trong cửa sổ Split Column by Delimiter, chọn Custom và nhập các ký tự phân tách mà bạn gặp, ví dụ:
-,/,|. Power Query cho phép bạn nhập nhiều ký tự phân tách cùng lúc. - Bước 5: Chọn Advanced options và chọn cách tách (ví dụ: Split to Rows nếu muốn mỗi phần tử nằm trên 1 dòng riêng, hoặc Split to Columns để tạo các cột mới). Trong trường hợp này, mình chọn Split to Columns.
- Bước 6: Sau khi tách, bạn có thể cần thêm các bước để chuẩn hóa định dạng, ví dụ: thay thế ký tự
/bằng dấu cách, hoặc chuyển đổi kiểu dữ liệu cho cột Năm sinh.
Cách này giúp mình tiết kiệm rất nhiều thời gian so với việc dùng hàm SUBSTITUTE, LEFT, MID, RIGHT lồng nhau. Hy vọng chia sẻ này hữu ích cho các bạn khi xử lý dữ liệu chuỗi phức tạp!