Menu

App script quản lý rủi ro cho cá nhân & doanh nghiệp với báo cáo chuẩn định dạng biểu đồ

Tự động trích xuất dữ liệu từ nhiều file PDF vào Excel bằng Power Query

Cung Sĩ Hùng 06/04/2026 17:50 360 lượt xem 1 trả lời

Chào các anh em, dạo này công việc của mình liên quan đến việc xử lý một đống file PDF báo cáo từ các chi nhánh gửi về. Mỗi file lại có cấu trúc hơi khác nhau một chút, mà số lượng thì lại kha khá. Copy paste thủ công thì đúng là nản luôn.

Sau một hồi mò mẫm thì mình phát hiện ra Power Query có khả năng làm việc này một cách tự động. Hôm nay chia sẻ lại với mọi người xem có hữu ích không nhé.

Các bước cơ bản mình làm như sau:

  • Đầu tiên, mình gom tất cả các file PDF vào chung một thư mục.
  • Trong Power Query Editor, mình chọn Get Data -> From File -> From Folder. Chọn đến thư mục chứa file PDF của mình.
  • Power Query sẽ liệt kê ra các file. Lúc này, mình sẽ cần thêm một cột tùy chỉnh (Custom Column) để trích xuất nội dung từ mỗi file PDF. Hàm mình hay dùng là Pdf.Tables([Content]) hoặc Pdf.Pages([Content]) tùy cấu trúc file PDF.
  • Sau khi trích xuất, mình sẽ tiến hành làm sạch, chuẩn hóa dữ liệu (loại bỏ các dòng/cột thừa, đổi tên cột, chuyển đổi kiểu dữ liệu...).
  • Cuối cùng, mình Close & Load To... để đưa dữ liệu vào bảng Excel hoặc tạo kết nối mới.

Cái hay là sau này chỉ cần thêm file PDF mới vào thư mục, sau đó bấm Refresh All là dữ liệu tự động cập nhật vào Excel. Tiết kiệm được khối thời gian.

Cách này khá hiệu quả với các file PDF có cấu trúc tương đối đồng nhất. Còn nếu file PDF quá lộn xộn thì cũng hơi vất vả hơn chút. Có anh em nào có kinh nghiệm xử lý file PDF bằng Power Query thì chia sẻ thêm nhé!

4

Hay quá bạn ơi! Mình cũng đang vật lộn với đống báo cáo PDF tương tự. Power Query đúng là cứu cánh thật. Bạn có thể chia sẻ rõ hơn về phần xử lý các file có cấu trúc hơi khác nhau không? Mình đang gặp khó khăn ở chỗ đó, nhiều khi phải chỉnh sửa thủ công khá mất thời gian.

5

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký