Chào mọi người, dạo này mình làm nhiều báo cáo liên quan đến địa lý nên gặp phải vấn đề với dữ liệu địa chỉ. Dữ liệu nhập vào thường rất lộn xộn, có chỗ thì ghi đầy đủ Tỉnh/Thành phố, Quận/Huyện, Phường/Xã, có chỗ thì thiếu, có chỗ lại ghi sai chính tả, hoặc có những ký tự lạ.
Ban đầu mình định dùng các hàm xử lý chuỗi như SUBSTITUTE, LEFT, RIGHT, FIND... nhưng với độ phức tạp và số lượng dữ liệu lớn thì làm thủ công rất tốn thời gian và dễ sai sót. Sau đó, mình tìm hiểu và áp dụng Power Query để giải quyết vấn đề này và thấy hiệu quả rõ rệt.
Cụ thể, mình đã xây dựng một quy trình trong Power Query để:
- Tách các thành phần địa chỉ (Tỉnh/TP, Quận/Huyện, Phường/Xã) ra thành các cột riêng biệt.
- Chuẩn hóa tên các tỉnh/thành phố, quận/huyện, phường/xã theo một danh sách chuẩn (mình tự tạo hoặc lấy từ nguồn uy tín).
- Loại bỏ các ký tự thừa, khoảng trắng không cần thiết.
- Xử lý các trường hợp đặc biệt như địa chỉ không đầy đủ hoặc sai định dạng.
Việc này giúp dữ liệu địa chỉ của mình trở nên sạch sẽ, nhất quán và sẵn sàng cho các phân tích sâu hơn hoặc nhập vào hệ thống khác. Nếu ai đang gặp khó khăn tương tự với dữ liệu địa chỉ hoặc các loại dữ liệu văn bản phức tạp khác, mình nghĩ Power Query là một công cụ rất đáng để đầu tư thời gian tìm hiểu.
Có ai có kinh nghiệm hay mẹo hay hơn trong việc xử lý dữ liệu địa chỉ bằng Power Query hoặc các công cụ khác không, chia sẻ cho mọi người cùng học hỏi nhé!