Menu

Mẹo nhỏ giúp làm sạch dữ liệu Power Query hiệu quả

Dai Nho Lan 08/03/2026 13:03 577 lượt xem 2 trả lời

Chào mọi người,

Dạo này mình đang làm việc nhiều với Power BI và nhận thấy khâu làm sạch dữ liệu (Data Cleaning) trong Power Query tốn khá nhiều thời gian. Hôm nay mình muốn chia sẻ một vài mẹo nhỏ mà mình hay áp dụng để quá trình này nhanh và hiệu quả hơn, hy vọng giúp ích cho các bạn.

1. Sử dụng tính năng "Group By" để gom nhóm dữ liệu:

Khi bạn có các cột chứa thông tin lặp lại (ví dụ: tên khách hàng, mã sản phẩm), việc gom nhóm bằng "Group By" giúp bạn loại bỏ các dòng trùng lặp và chỉ giữ lại thông tin duy nhất. Thao tác này rất hữu ích khi làm báo cáo tổng hợp.

2. Tận dụng "Split Column" thông minh:

Thay vì chỉ tách cột theo dấu phân cách cố định, Power Query cho phép bạn tách cột dựa trên vị trí ký tự hoặc thậm chí là tách thành nhiều cột. Ví dụ, bạn có thể tách cột "Ngày tháng năm" thành 3 cột "Ngày", "Tháng", "Năm" một cách dễ dàng.

3. "Merge Queries" để kết hợp dữ liệu từ nhiều nguồn:

Đây là một tính năng cực kỳ mạnh mẽ. Khi bạn có các bảng dữ liệu liên quan (ví dụ: bảng thông tin khách hàng và bảng đơn hàng), bạn có thể kết hợp chúng lại bằng "Merge Queries" dựa trên một hoặc nhiều cột chung. Điều này giúp tạo ra một bảng dữ liệu hoàn chỉnh để phân tích.

4. "Conditional Column" để tạo cột mới dựa trên điều kiện:

Bạn có thể tạo một cột mới dựa trên các quy tắc logic. Ví dụ, tạo cột "Phân loại" dựa trên giá trị của cột "Doanh thu" (ví dụ: "Cao", "Trung bình", "Thấp").

5. "Unpivot Columns" để chuyển đổi định dạng dữ liệu:

Đôi khi dữ liệu của bạn ở định dạng "rộng" (wide format), với mỗi thuộc tính là một cột. "Unpivot Columns" giúp chuyển đổi nó sang định dạng "dài" (long format), thuận tiện hơn cho việc trực quan hóa và phân tích trong Power BI.

Những thao tác này tuy đơn giản nhưng giúp tiết kiệm rất nhiều thời gian và công sức. Các bạn có mẹo nào hay ho khác thì chia sẻ thêm nhé!

4

Cảm ơn bạn đã chia sẻ mẹo làm sạch dữ liệu trong Power Query nha. Mình cũng hay gặp tình trạng tương tự, nhất là với những file dữ liệu lớn. Tính năng "Group By" này đúng là cứu cánh thật.

Mình có thêm một góp ý nhỏ là ngoài "Group By", các bạn cũng có thể thử kết hợp với chức năng "Remove Duplicates" để tăng tốc độ làm sạch dữ liệu. Đôi khi, hai cách này kết hợp lại cho hiệu quả bất ngờ lắm.

1

Đúng là khâu làm sạch dữ liệu trong Power Query đôi khi ngốn thời gian thật. Cảm ơn bạn đã chia sẻ mẹo Group By nhé, mình cũng hay dùng cách này để xử lý các cột mã, tên lặp lại.

Mình thấy bạn mới đề cập đến "Group By" thôi, không biết bạn còn áp dụng những kỹ thuật nào khác để tối ưu hóa quy trình làm sạch dữ liệu trong Power Query không? Ví dụ như cách xử lý các giá trị null hay định dạng sai chẳng hạn?

1

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký