Chào các anh chị em trong diễn đàn!
Dạo này mình hay phải làm việc với các file dữ liệu lớn, mà phần địa chỉ cứ lộn xộn, từ tỉnh, huyện, xã viết không theo một chuẩn nào cả. Ví dụ có chỗ ghi 'Hồ Chí Minh', chỗ lại 'TP.HCM', chỗ 'Quận 1', chỗ 'Q.1'. Làm thủ công đúng là tốn thời gian kinh khủng.
Sau một hồi mày mò, mình đã tìm ra một cách khá hay để tự động chuẩn hóa cái mớ địa chỉ này. Mình dùng kết hợp giữa Power Query và một bảng tra cứu (lookup table) các tỉnh/thành phố, quận/huyện, xã/phường theo chuẩn hành chính mới nhất.
Cách làm cơ bản như sau:
- Tạo một bảng Excel chứa danh sách đầy đủ các tỉnh/thành phố, quận/huyện, xã/phường theo thứ tự phân cấp và tên chuẩn.
- Sử dụng Power Query để tải dữ liệu địa chỉ từ file Excel của bạn vào.
- Thực hiện các bước 'Clean' dữ liệu ban đầu: loại bỏ khoảng trắng thừa, chuyển về chữ thường/hoa tùy ý.
- Dùng chức năng Merge Queries trong Power Query để nối bảng dữ liệu địa chỉ của bạn với bảng tra cứu theo từng cấp (tỉnh, huyện, xã).
- Sau khi nối, bạn có thể trích xuất ra cột địa chỉ đã được chuẩn hóa.
Cách này giúp mình xử lý hàng ngàn dòng dữ liệu chỉ trong vài phút, thay vì ngồi sửa thủ công cả ngày. Nếu ai đang gặp vấn đề tương tự, mình khuyến khích thử áp dụng nhé. Có khó khăn gì cứ hỏi mình, mình sẽ chia sẻ thêm chi tiết hơn.
Chúc mọi người làm việc hiệu quả hơn với Excel!