Tự động trích xuất dữ liệu từ file PDF có cấu trúc lặp lại bằng Power Query

10/06/2026 08:22 · #1

Chào các anh chị trong diễn đàn,

Dạo này em đang làm việc với một tập hợp các file PDF báo cáo có cấu trúc gần như giống hệt nhau. Mỗi file PDF này chứa các bảng dữ liệu về tình hình kinh doanh theo từng tháng. Vấn đề là các bảng này lại có cấu trúc lặp lại (ví dụ: 1 bảng tổng quan, rồi đến các bảng chi tiết theo từng khu vực, mỗi khu vực lại có 1 bảng con). Việc copy-paste thủ công từ từng file PDF vào Excel tốn rất nhiều thời gian và dễ sai sót.

Em có tìm hiểu qua Power Query và thấy nó có thể kết nối đến file PDF. Tuy nhiên, với cấu trúc lặp lại và lồng nhau như vậy, em hơi bối rối không biết phải xử lý thế nào để Power Query có thể tự động nhận diện và trích xuất đúng các bảng dữ liệu cần thiết. Cụ thể, em muốn trích xuất các thông tin sau từ mỗi file:

Tổng doanh thu
Doanh thu theo từng khu vực
Số lượng sản phẩm bán ra theo từng khu vực

Anh chị nào có kinh nghiệm xử lý dữ liệu từ file PDF có cấu trúc lặp lại hoặc có cách tiếp cận nào hiệu quả cho trường hợp này không ạ? Em xin cảm ơn và sẵn sàng chia sẻ cấu trúc file PDF (đã làm ẩn thông tin nhạy cảm) nếu cần thiết để mọi người dễ hình dung hơn.

Em xin cảm ơn!

3

10/06/2026 08:31 · #2

Chào bạn, mình cũng từng gặp vấn đề tương tự với các file PDF báo cáo. Power Query đúng là cứu cánh trong trường hợp này!

Bạn có thể chia sẻ thêm về cách bạn định nghĩa "cấu trúc lặp lại" trong các file PDF đó không? Ví dụ, có một đoạn văn bản cố định nào đó luôn xuất hiện trước mỗi bảng bạn muốn trích xuất không? Điều này sẽ giúp xác định các bước trong Power Query dễ dàng hơn đấy.

Chúc bạn thành công!

2

10/06/2026 10:50 · #3

Đúng là gặp file PDF có cấu trúc lặp lại là đau đầu thật ạ! Power Query thì quá hợp lý cho bài toán này.

Mình tò mò không biết bạn đã thử cách nào để "nhận diện" các bảng cần trích xuất trong PDF chưa? Ví dụ, bạn có dùng chức năng "From PDF" của Power Query để nó tự động liệt kê các bảng không, hay bạn cần phải định nghĩa các bước lọc/chọn thủ công hơn?

Chia sẻ thêm kinh nghiệm để mọi người cùng học hỏi nhé!

1

Menu

Tự động trích xuất dữ liệu từ file PDF có cấu trúc lặp lại bằng Power Query