Chào mọi người,
Dạo gần đây mình làm việc với một dự án cần tổng hợp dữ liệu từ nhiều nguồn (Excel, CSV, Web). Vấn đề mình gặp phải là dữ liệu về tỉnh/thành phố ở các nguồn này không đồng nhất, ví dụ có nơi ghi là "Hà Nội", có nơi là "TP. Hà Nội", "Thành phố Hà Nội", hoặc thậm chí sai chính tả.
Mình đã thử dùng các hàm VLOOKUP với danh sách chuẩn, nhưng với số lượng dữ liệu lớn và nhiều nguồn, việc này khá thủ công và dễ sai sót. Sau đó, mình nghĩ đến Power Query và nó đã giải quyết vấn đề này một cách tuyệt vời.
Cách mình làm là:
- Bước 1: Tải tất cả các nguồn dữ liệu vào Power Query.
- Bước 2: Tạo một bảng tra cứu (lookup table) riêng biệt chứa các biến thể tên tỉnh/thành phố và tên chuẩn tương ứng.
- Bước 3: Sử dụng chức năng Merge Queries để kết hợp bảng dữ liệu chính với bảng tra cứu.
- Bước 4: Sau khi merge, mình chọn cột chứa tên tỉnh/thành phố từ bảng tra cứu (sau khi đã chuẩn hóa) để thay thế cho cột gốc.
Ví dụ về bảng tra cứu có thể trông như thế này:
Tên biến thể,Tên chuẩn
"Hà Nội","Hà Nội"
"TP. Hà Nội","Hà Nội"
"Thành phố Hà Nội","Hà Nội"
"Hồ Chí Minh","Hồ Chí Minh"
"TP. Hồ Chí Minh","Hồ Chí Minh"
"Sài Gòn","Hồ Chí Minh"
"Đà Nẵng","Đà Nẵng"
"TP. Đà Nẵng","Đà Nẵng"
...Cách này giúp mình tự động hóa việc chuẩn hóa tên tỉnh/thành phố, tiết kiệm rất nhiều thời gian và đảm bảo tính nhất quán của dữ liệu. Hy vọng chia sẻ này hữu ích cho các bạn.
Có ai có cách nào hay hơn hoặc gặp tình huống tương tự không, cùng thảo luận nhé!