Chào mọi người,
Hôm qua mình vừa tham gia một buổi workshop về Power Query và thấy rất hữu ích, đặc biệt là các bước làm sạch dữ liệu tự động. Mình muốn chia sẻ lại một vài kinh nghiệm nhỏ để các bạn chưa có dịp tham gia có thể hình dung được phần nào.
Trước đây, mỗi lần nhận file dữ liệu từ phòng ban khác là mình lại đau đầu vì định dạng lung tung, thiếu cột, thừa ký tự. Việc làm sạch thủ công tốn rất nhiều thời gian và dễ sai sót. Nhưng từ khi biết đến Power Query, mọi thứ trở nên nhẹ nhàng hơn hẳn.
Trong buổi workshop, giảng viên đã hướng dẫn rất chi tiết cách sử dụng các chức năng trong Power Query Editor:
- Loại bỏ các dòng/cột trống: Rất đơn giản nhưng hiệu quả.
- Thay thế giá trị: Thay thế các ký tự đặc biệt, khoảng trắng thừa, hoặc các giá trị sai quy cách.
- Tách/Ghép cột: Phân tách thông tin từ một cột thành nhiều cột, hoặc ngược lại.
- Chuyển đổi kiểu dữ liệu: Đảm bảo các cột có đúng định dạng (số, ngày tháng, văn bản).
- Unpivot Columns: Đây là chức năng mình thấy tâm đắc nhất, giúp chuyển đổi cấu trúc dữ liệu từ dạng bảng ngang sang dạng bảng dọc, rất tiện cho việc phân tích sau này.
Ví dụ, với một file báo cáo bán hàng có các tháng được trình bày theo từng cột (Jan, Feb, Mar...), thay vì copy paste thủ công, mình chỉ cần vài cú click với Power Query là có ngay một bảng dữ liệu chuẩn để đưa vào PivotTable.
Nếu bạn nào đang vật lộn với việc làm sạch dữ liệu, mình highly recommend nên tìm hiểu về Power Query. Có thể bắt đầu bằng các video hướng dẫn trên YouTube hoặc tham gia các lớp học offline như mình vừa rồi để được giải đáp thắc mắc trực tiếp.
Chúc các bạn học tập hiệu quả!