Chào mọi người,
Dạo này mình hay phải làm việc với các file dữ liệu địa chỉ, mà đúng là nó lộn xộn đủ kiểu. Nào là thiếu tỉnh/thành phố, nào là viết tắt, nào là có thêm số điện thoại hay email vào chung một ô. Nếu làm thủ công thì mất cả buổi, mà sai sót thì dễ như chơi.
Hôm nay mình muốn chia sẻ cách mình dùng Power Query để xử lý mớ hỗn độn này một cách tự động và hiệu quả. Cái hay là mình chỉ cần thiết lập một lần, sau này có dữ liệu mới chỉ cần refresh là xong.
Các bước chính mình thường làm:
- Tách địa chỉ thành các thành phần: Số nhà, tên đường, phường/xã, quận/huyện, tỉnh/thành phố. Power Query có các chức năng Split Column rất mạnh mẽ, kết hợp với việc xác định ký tự phân tách (như dấu phẩy, dấu gạch ngang) hoặc vị trí ký tự là cực kỳ hữu ích.
- Chuẩn hóa tên đường, quận/huyện: Mình dùng chức năng Replace Values để sửa các trường hợp viết tắt (ví dụ: 'Đg' thành 'Đường', 'Q.' thành 'Quận') hoặc các tên gọi không chuẩn.
- Loại bỏ thông tin thừa: Các phần như 'Tel:', 'Email:', hoặc các ký tự đặc biệt không mong muốn sẽ được loại bỏ bằng Replace Values hoặc Trim.
- Kết hợp lại nếu cần: Sau khi chuẩn hóa, có thể cần kết hợp lại các cột địa chỉ theo một định dạng chuẩn chung.
Ví dụ, để tách số nhà và tên đường, mình thường tìm ký tự đầu tiên là số, sau đó tách ra. Hoặc nếu địa chỉ có dạng 'Số nhà, Tên đường, Phường, Quận, Tỉnh', mình có thể dùng Split Column by Delimiter với dấu phẩy.
Nếu ai đó có cách làm hay hơn hoặc gặp trường hợp địa chỉ 'khó nhằn' hơn, chia sẻ cho mình với nhé!