Menu

Tự động làm sạch dữ liệu số bị dính ký tự đặc biệt bằng Power Query

Cảnh Đắc Đan 10/06/2026 17:01 465 lượt xem 1 trả lời

Chào mọi người,

Dạo này mình làm việc với nhiều nguồn dữ liệu khác nhau, đặc biệt là từ web hoặc file scan, nên thường xuyên gặp phải tình trạng dữ liệu số bị dính các ký tự lạ như dấu phẩy, dấu chấm, ngoặc đơn, hoặc thậm chí là chữ. Điều này gây khó khăn khi muốn thực hiện các phép tính toán học thông thường.

Trước đây, mình hay dùng hàm SUBSTITUTE hoặc các phương pháp thủ công để xử lý, nhưng với lượng dữ liệu lớn thì rất tốn thời gian. Gần đây, mình có tìm hiểu và áp dụng Power Query để giải quyết vấn đề này một cách tự động và hiệu quả.

Cách mình làm như sau:

  • Bước 1: Tải dữ liệu vào Power Query.
  • Bước 2: Chọn cột chứa dữ liệu số bị lỗi.
  • Bước 3: Vào tab "Transform" (Biến đổi), chọn "Replace Values" (Thay thế giá trị).
  • Bước 4: Trong ô "Value To Find" (Giá trị cần tìm), nhập ký tự đặc biệt bạn muốn loại bỏ (ví dụ: dấu phẩy ',').
  • Bước 5: Để trống ô "Replace With" (Thay thế bằng).
  • Bước 6: Nhấn OK. Lặp lại các bước 4-6 cho các ký tự đặc biệt khác.
  • Bước 7 (Quan trọng): Sau khi đã loại bỏ hết các ký tự không mong muốn, bạn cần chuyển đổi kiểu dữ liệu của cột về dạng số (Number) hoặc Decimal Number (Số thập phân). Bạn có thể làm điều này bằng cách nhấp vào biểu tượng kiểu dữ liệu ở đầu cột hoặc vào tab "Transform" -> "Data Type" (Kiểu dữ liệu).

Một mẹo nhỏ là bạn có thể kết hợp nhiều bước "Replace Values" vào một bước "Custom Column" (Cột tùy chỉnh) nếu muốn tối ưu hóa, nhưng với các ký tự đơn giản thì cách làm từng bước như trên cũng khá rõ ràng.

Ví dụ, nếu cột của bạn có dạng "1,234.56" hoặc "(500)", sau khi xử lý bằng Power Query, bạn sẽ có được dạng số "1234.56" và "-500" (nếu bạn xử lý cả dấu ngoặc và dấu âm).

Chia sẻ với mọi người để tham khảo. Có ai có cách nào hay hơn hoặc gặp trường hợp phức tạp hơn thì cùng thảo luận nhé!

3

Hay quá bạn ơi! Mình cũng hay gặp vấn đề này lắm, nhất là khi lấy dữ liệu từ các báo cáo PDF. Bạn có thể chia sẻ cụ thể hơn về các bước bạn đã thực hiện trong Power Query để loại bỏ các ký tự đó không? Mình đang dùng chức năng "Replace Values" nhưng đôi khi nó không xử lý hết được các trường hợp phức tạp.

0

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký