Chào các bác, dạo này em đang gặp một bài toán hơi đau đầu là phải tổng hợp dữ liệu từ rất nhiều file PDF báo cáo về một file Excel duy nhất. Mỗi file PDF có cấu trúc tương tự nhau nhưng lại nằm rải rác ở nhiều thư mục. Làm thủ công thì tốn thời gian kinh khủng mà dễ sai sót.
Em có tìm hiểu thì thấy Python có thể giúp xử lý vụ này khá ổn. Em đã thử dùng thư viện PyPDF2 để đọc file PDF và pandas để xử lý dữ liệu rồi ghi ra Excel. Cụ thể, em viết một script nhỏ để:
- Quét tất cả các file PDF trong một thư mục (và các thư mục con nếu cần).
- Với mỗi file PDF, trích xuất các bảng hoặc đoạn văn bản chứa thông tin cần thiết.
- Chuẩn hóa dữ liệu (ví dụ: đổi kiểu dữ liệu, xử lý giá trị thiếu).
- Ghi dữ liệu đã trích xuất vào một DataFrame của pandas.
- Cuối cùng, tổng hợp tất cả DataFrame lại và lưu thành một file Excel duy nhất.
Script của em nhìn chung là chạy được, nhưng đôi khi gặp khó khăn với các file PDF có cấu trúc hơi khác một chút hoặc hình ảnh bảng biểu phức tạp. Có bác nào đã từng làm qua vụ này hoặc có kinh nghiệm xử lý file PDF bằng Python cho em xin thêm vài kinh nghiệm hoặc gợi ý về các thư viện khác hiệu quả hơn không ạ? Em đang phân vân không biết nên tập trung vào tabula-py hay camelot-py cho việc trích xuất bảng biểu. Rất mong được các bác chỉ giáo!