Menu

App script quản lý rủi ro cho cá nhân & doanh nghiệp với báo cáo chuẩn định dạng biểu đồ

Tự động hóa việc làm sạch dữ liệu bị lặp và không nhất quán với Power Query

Tưởng Thụy Đạt 16/03/2026 01:21 365 lượt xem 3 trả lời

Chào mọi người,

Dạo gần đây mình làm việc với nhiều bộ dữ liệu mà khách hàng cung cấp, và vấn đề muôn thuở là dữ liệu thường bị lặp lại hoặc không nhất quán (ví dụ: 'Hà Nội', 'hà nội', 'HN' cùng chỉ một địa điểm). Việc làm sạch thủ công tốn rất nhiều thời gian và dễ sai sót.

Hôm nay mình muốn chia sẻ cách mình đã áp dụng Power Query để giải quyết vấn đề này một cách tự động và hiệu quả. Power Query (hay còn gọi là Get & Transform) có sẵn trong Excel từ phiên bản 2016 trở lên, hoặc có thể cài thêm cho các phiên bản cũ hơn.

Các bước cơ bản mình thường làm:

  • Bước 1: Import dữ liệu vào Power Query. Chọn Data > Get Data > From File (hoặc nguồn khác phù hợp).
  • Bước 2: Xử lý dữ liệu lặp (Remove Duplicates). Chọn cột cần kiểm tra, chuột phải > Remove Duplicates. Tuy nhiên, cách này chỉ loại bỏ các hàng hoàn toàn trùng lặp.
  • Bước 3: Chuẩn hóa dữ liệu không nhất quán. Đây là phần quan trọng nhất. Mình thường dùng các cách sau:
    1. Trim: Loại bỏ khoảng trắng thừa ở đầu và cuối chuỗi. Chọn cột > Transform > Format > Trim.
    2. Clean: Loại bỏ các ký tự không in được. Chọn cột > Transform > Format > Clean.
    3. Chuyển đổi chữ hoa/thường: Chọn cột > Transform > Format > Uppercase/Lowercase/Capitalize Each Word tùy nhu cầu.
    4. Thay thế giá trị (Replace Values): Đây là cách mạnh mẽ để chuẩn hóa các biến thể. Ví dụ, mình muốn chuẩn hóa tất cả các biến thể của 'Hà Nội' về 'Hà Nội'. Chọn cột > Transform > Replace Values. Nhập giá trị cũ và giá trị mới.
    5. Nhóm dữ liệu (Group By): Nếu có nhiều biến thể cho cùng một đối tượng và bạn muốn gộp chúng lại. Ví dụ, nhóm các mã sản phẩm gần giống nhau. Chọn cột > Transform > Group By.
  • Bước 4: Load dữ liệu đã xử lý. Sau khi hoàn tất các bước, chọn Home > Close & Load để đưa dữ liệu sạch về Excel.

Ưu điểm lớn nhất là khi có dữ liệu mới, chỉ cần nhấn Refresh All là Power Query sẽ tự động chạy lại toàn bộ quy trình làm sạch đã thiết lập, tiết kiệm thời gian cực kỳ.

Có anh em nào có kinh nghiệm hay cách làm khác hiệu quả hơn với Power Query hoặc các công cụ khác để xử lý dữ liệu không nhất quán không, chia sẻ thêm cho mọi người cùng học hỏi nhé!

3

Hay quá bạn ơi! Mình cũng hay gặp tình trạng dữ liệu "nhảy múa" thế này. Power Query đúng là cứu cánh cho mấy vụ làm sạch thủ công. Bạn có thể chia sẻ cụ thể hơn về cách bạn xử lý các trường hợp "Hà Nội", "hà nội", "HN" trong Power Query không? Mình tò mò không biết bạn dùng hàm nào để chuẩn hóa chúng nhỉ?

0

Tuyệt vời! Mình cũng rất hay dùng Power Query cho mấy vụ làm sạch dữ liệu "nhảy múa" như bạn mô tả.

Về trường hợp "Hà Nội", "hà nội", "HN", mình thường kết hợp hai bước: 1. Chuẩn hóa định dạng chữ: Dùng hàm Text.Upper (hoặc Text.Lower) để đưa tất cả về dạng in hoa (hoặc in thường). 2. Thay thế giá trị không nhất quán: Sau đó, dùng chức năng "Replace Values" hoặc hàm Table.ReplaceValue để thay thế các biến thể như "HN" thành "Hà Nội".

Cách này giúp xử lý nhanh gọn và tránh sai sót. Bạn đã thử cách nào khác chưa?

5

Hay quá bạn ơi! Mình cũng hay gặp tình trạng dữ liệu "nhảy múa" thế này. Power Query đúng là cứu cánh cho mấy vụ làm sạch thủ công.

Bạn có thể chia sẻ cụ thể hơn về cách bạn xử lý các trường hợp "Hà Nội", "hà nội", "HN" trong Power Query không? Mình tò mò không biết bạn dùng hàm nào để chuẩn hóa chúng nhỉ?

3

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký