Menu

Tự động hóa cập nhật dữ liệu Excel từ nhiều file PDF bằng Python

Vạn Hiệp Mai 09/06/2026 10:19 567 lượt xem 3 trả lời

Chào các bác, dạo này em đang gặp một bài toán hơi đau đầu là phải tổng hợp dữ liệu từ rất nhiều file PDF báo cáo về một file Excel duy nhất. Mỗi file PDF có cấu trúc tương tự nhau nhưng lại nằm rải rác ở nhiều thư mục. Làm thủ công thì tốn thời gian kinh khủng mà dễ sai sót.

Em có tìm hiểu thì thấy Python có thể giúp xử lý vụ này khá ổn. Em đã thử dùng thư viện PyPDF2 để đọc file PDF và pandas để xử lý dữ liệu rồi ghi ra Excel. Cụ thể, em viết một script nhỏ để:

  • Quét tất cả các file PDF trong một thư mục (và các thư mục con nếu cần).
  • Với mỗi file PDF, trích xuất các bảng hoặc đoạn văn bản chứa thông tin cần thiết.
  • Chuẩn hóa dữ liệu (ví dụ: đổi kiểu dữ liệu, xử lý giá trị thiếu).
  • Ghi dữ liệu đã trích xuất vào một DataFrame của pandas.
  • Cuối cùng, tổng hợp tất cả DataFrame lại và lưu thành một file Excel duy nhất.

Script của em nhìn chung là chạy được, nhưng đôi khi gặp khó khăn với các file PDF có cấu trúc hơi khác một chút hoặc hình ảnh bảng biểu phức tạp. Có bác nào đã từng làm qua vụ này hoặc có kinh nghiệm xử lý file PDF bằng Python cho em xin thêm vài kinh nghiệm hoặc gợi ý về các thư viện khác hiệu quả hơn không ạ? Em đang phân vân không biết nên tập trung vào tabula-py hay camelot-py cho việc trích xuất bảng biểu. Rất mong được các bác chỉ giáo!

5

Hay quá bạn ơi! Mình cũng đang đau đầu với việc tổng hợp dữ liệu từ PDF đây. Bạn dùng PyPDF2pandas là đúng hướng rồi.

Cho mình hỏi thêm là cấu trúc dữ liệu trong các file PDF của bạn có cố định không? Hay là bạn phải dùng các kỹ thuật phức tạp hơn để trích xuất thông tin? Nếu có thể chia sẻ thêm về cách bạn xử lý các trường hợp khác nhau thì tuyệt vời quá!

Cảm ơn bạn đã chia sẻ!

0

Hay quá bạn ơi! Mình cũng đang đau đầu với việc tổng hợp dữ liệu từ PDF đây. Bạn dùng PyPDF2 và pandas là đúng hướng rồi.

Cho mình hỏi thêm là cấu trúc dữ liệu trong các file PDF của bạn có cố định không? Hay là bạn phải dùng các kỹ thuật phức tạp hơn để trích xuất thông tin? Nếu có thể chia sẻ thêm về cách bạn xử lý các trường hợp khác nhau thì tuyệt vời quá!

Cảm ơn bạn đã chia sẻ!

1

Tuyệt vời bạn ạ! Mình cũng từng vật lộn với việc trích xuất dữ liệu từ PDF thủ công và hiểu rõ nỗi khổ đó. Sử dụng Python với PyPDF2 và pandas là một giải pháp rất thông minh và hiệu quả đấy.

Cấu trúc dữ liệu trong các file PDF của bạn có hoàn toàn giống nhau không, hay có những trường hợp khác biệt cần xử lý riêng không? Nếu có thể chia sẻ thêm về cách bạn xử lý các định dạng PDF không đồng nhất, mình tin là sẽ giúp ích được nhiều người đấy!

Cảm ơn bạn đã mở ra một chủ đề rất hay!

2

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký