Chào các anh em, dạo này công việc của mình liên quan đến việc xử lý một đống file PDF báo cáo từ các chi nhánh gửi về. Mỗi file lại có cấu trúc hơi khác nhau một chút, mà số lượng thì lại kha khá. Copy paste thủ công thì đúng là nản luôn.
Sau một hồi mò mẫm thì mình phát hiện ra Power Query có khả năng làm việc này một cách tự động. Hôm nay chia sẻ lại với mọi người xem có hữu ích không nhé.
Các bước cơ bản mình làm như sau:
- Đầu tiên, mình gom tất cả các file PDF vào chung một thư mục.
- Trong Power Query Editor, mình chọn Get Data -> From File -> From Folder. Chọn đến thư mục chứa file PDF của mình.
- Power Query sẽ liệt kê ra các file. Lúc này, mình sẽ cần thêm một cột tùy chỉnh (Custom Column) để trích xuất nội dung từ mỗi file PDF. Hàm mình hay dùng là
Pdf.Tables([Content])hoặcPdf.Pages([Content])tùy cấu trúc file PDF. - Sau khi trích xuất, mình sẽ tiến hành làm sạch, chuẩn hóa dữ liệu (loại bỏ các dòng/cột thừa, đổi tên cột, chuyển đổi kiểu dữ liệu...).
- Cuối cùng, mình Close & Load To... để đưa dữ liệu vào bảng Excel hoặc tạo kết nối mới.
Cái hay là sau này chỉ cần thêm file PDF mới vào thư mục, sau đó bấm Refresh All là dữ liệu tự động cập nhật vào Excel. Tiết kiệm được khối thời gian.
Cách này khá hiệu quả với các file PDF có cấu trúc tương đối đồng nhất. Còn nếu file PDF quá lộn xộn thì cũng hơi vất vả hơn chút. Có anh em nào có kinh nghiệm xử lý file PDF bằng Power Query thì chia sẻ thêm nhé!