Chào mọi người,
Dạo này mình đang làm việc nhiều với Power BI và nhận thấy khâu làm sạch dữ liệu (Data Cleaning) trong Power Query tốn khá nhiều thời gian. Hôm nay mình muốn chia sẻ một vài mẹo nhỏ mà mình hay áp dụng để quá trình này nhanh và hiệu quả hơn, hy vọng giúp ích cho các bạn.
1. Sử dụng tính năng "Group By" để gom nhóm dữ liệu:
Khi bạn có các cột chứa thông tin lặp lại (ví dụ: tên khách hàng, mã sản phẩm), việc gom nhóm bằng "Group By" giúp bạn loại bỏ các dòng trùng lặp và chỉ giữ lại thông tin duy nhất. Thao tác này rất hữu ích khi làm báo cáo tổng hợp.
2. Tận dụng "Split Column" thông minh:
Thay vì chỉ tách cột theo dấu phân cách cố định, Power Query cho phép bạn tách cột dựa trên vị trí ký tự hoặc thậm chí là tách thành nhiều cột. Ví dụ, bạn có thể tách cột "Ngày tháng năm" thành 3 cột "Ngày", "Tháng", "Năm" một cách dễ dàng.
3. "Merge Queries" để kết hợp dữ liệu từ nhiều nguồn:
Đây là một tính năng cực kỳ mạnh mẽ. Khi bạn có các bảng dữ liệu liên quan (ví dụ: bảng thông tin khách hàng và bảng đơn hàng), bạn có thể kết hợp chúng lại bằng "Merge Queries" dựa trên một hoặc nhiều cột chung. Điều này giúp tạo ra một bảng dữ liệu hoàn chỉnh để phân tích.
4. "Conditional Column" để tạo cột mới dựa trên điều kiện:
Bạn có thể tạo một cột mới dựa trên các quy tắc logic. Ví dụ, tạo cột "Phân loại" dựa trên giá trị của cột "Doanh thu" (ví dụ: "Cao", "Trung bình", "Thấp").
5. "Unpivot Columns" để chuyển đổi định dạng dữ liệu:
Đôi khi dữ liệu của bạn ở định dạng "rộng" (wide format), với mỗi thuộc tính là một cột. "Unpivot Columns" giúp chuyển đổi nó sang định dạng "dài" (long format), thuận tiện hơn cho việc trực quan hóa và phân tích trong Power BI.
Những thao tác này tuy đơn giản nhưng giúp tiết kiệm rất nhiều thời gian và công sức. Các bạn có mẹo nào hay ho khác thì chia sẻ thêm nhé!