Chào các anh chị trong diễn đàn,
Dạo này em đang làm việc với một tập hợp các file PDF báo cáo có cấu trúc gần như giống hệt nhau. Mỗi file PDF này chứa các bảng dữ liệu về tình hình kinh doanh theo từng tháng. Vấn đề là các bảng này lại có cấu trúc lặp lại (ví dụ: 1 bảng tổng quan, rồi đến các bảng chi tiết theo từng khu vực, mỗi khu vực lại có 1 bảng con). Việc copy-paste thủ công từ từng file PDF vào Excel tốn rất nhiều thời gian và dễ sai sót.
Em có tìm hiểu qua Power Query và thấy nó có thể kết nối đến file PDF. Tuy nhiên, với cấu trúc lặp lại và lồng nhau như vậy, em hơi bối rối không biết phải xử lý thế nào để Power Query có thể tự động nhận diện và trích xuất đúng các bảng dữ liệu cần thiết. Cụ thể, em muốn trích xuất các thông tin sau từ mỗi file:
- Tổng doanh thu
- Doanh thu theo từng khu vực
- Số lượng sản phẩm bán ra theo từng khu vực
Anh chị nào có kinh nghiệm xử lý dữ liệu từ file PDF có cấu trúc lặp lại hoặc có cách tiếp cận nào hiệu quả cho trường hợp này không ạ? Em xin cảm ơn và sẵn sàng chia sẻ cấu trúc file PDF (đã làm ẩn thông tin nhạy cảm) nếu cần thiết để mọi người dễ hình dung hơn.
Em xin cảm ơn!