Chào các bác, dạo này em đang vật lộn với việc trích xuất dữ liệu từ hàng trăm file PDF báo cáo của khách hàng. Thủ công copy-paste từng file thì đúng là tốn thời gian kinh khủng, mà sai sót thì không nói trước được. Em tìm hiểu thì thấy có vẻ bên mình có nhiều bài về tự động hóa bằng Python, nên muốn hỏi xem có bác nào đã từng xử lý vụ này chưa ạ?
Cụ thể là các file PDF này có cấu trúc tương đối giống nhau, chứa các bảng biểu với thông tin về doanh thu, chi phí, lợi nhuận. Em muốn dùng Python để đọc từng file PDF, trích xuất các bảng này và xuất ra một file Excel tổng hợp. Nghe nói có thư viện như tabula-py hoặc camelot có thể làm được việc này. Bác nào có kinh nghiệm thì chỉ giáo cho em với ạ. Đặc biệt là các bước cài đặt và những lưu ý khi xử lý các file PDF có định dạng hơi khác nhau thì càng tốt.
Nếu có ví dụ code đơn giản thì quá tuyệt vời. Em cảm ơn!