Chào mọi người,
Dạo này công ty mình có một bộ báo cáo gửi về dưới dạng file PDF, số lượng cũng kha khá. Mỗi lần nhận về là lại phải ngồi copy-paste thủ công từ PDF sang Excel, vừa tốn thời gian mà lại dễ sai sót. Sau khi vật lộn mấy ngày, mình phát hiện ra Power Query có thể giải quyết vụ này một cách ngon lành!
Cách làm của mình như sau:
- Đầu tiên, mình vào Data -> Get Data -> From File -> From PDF.
- Sau đó, mình chọn đến thư mục chứa các file PDF báo cáo. Power Query sẽ hiển thị danh sách các bảng, trang mà nó nhận diện được trong các file PDF đó.
- Mình chọn những bảng/trang cần thiết, rồi nhấn Transform Data để vào Power Query Editor.
- Ở đây, mình sẽ tiến hành làm sạch dữ liệu: loại bỏ các cột thừa, đổi tên cột, sửa kiểu dữ liệu, lọc bớt các dòng không cần thiết... (mấy bước này chắc mọi người quen thuộc rồi ha).
- Nếu các file PDF có cấu trúc hơi khác nhau một chút, mình có thể dùng các hàm để xử lý, ví dụ như
Table.Combineđể gom các bảng lại, hoặcTable.TransformColumnsđể xử lý từng cột riêng biệt. - Cuối cùng, mình nhấn Close & Load To... để nạp dữ liệu vào một sheet mới trong file Excel của mình.
Điểm hay là sau này khi có file PDF mới, chỉ cần bỏ vào cùng thư mục, sau đó vào Excel, chuột phải vào bảng dữ liệu và chọn Refresh là mọi thứ sẽ tự động cập nhật. Tiết kiệm được khối thời gian.
Không biết có anh em nào đã từng làm với file PDF bằng Power Query chưa? Chia sẻ thêm kinh nghiệm cho mọi người với nhé!