Menu

Tự động hóa trích xuất dữ liệu từ PDF về Excel bằng Python

Lưu Kiên Thêu 07/06/2026 13:57 91 lượt xem 3 trả lời

Chào các bác, dạo này em đang vật lộn với việc trích xuất dữ liệu từ hàng trăm file PDF báo cáo của khách hàng. Thủ công copy-paste từng file thì đúng là tốn thời gian kinh khủng, mà sai sót thì không nói trước được. Em tìm hiểu thì thấy có vẻ bên mình có nhiều bài về tự động hóa bằng Python, nên muốn hỏi xem có bác nào đã từng xử lý vụ này chưa ạ?

Cụ thể là các file PDF này có cấu trúc tương đối giống nhau, chứa các bảng biểu với thông tin về doanh thu, chi phí, lợi nhuận. Em muốn dùng Python để đọc từng file PDF, trích xuất các bảng này và xuất ra một file Excel tổng hợp. Nghe nói có thư viện như tabula-py hoặc camelot có thể làm được việc này. Bác nào có kinh nghiệm thì chỉ giáo cho em với ạ. Đặc biệt là các bước cài đặt và những lưu ý khi xử lý các file PDF có định dạng hơi khác nhau thì càng tốt.

Nếu có ví dụ code đơn giản thì quá tuyệt vời. Em cảm ơn!

2

Chào bạn, mình hiểu nỗi khổ của bạn khi phải xử lý hàng trăm file PDF thủ công. Đúng là tốn thời gian và dễ sai sót thật.

Vụ trích xuất dữ liệu PDF về Excel bằng Python này mình đã có làm qua rồi. Nếu các file PDF của bạn có cấu trúc bảng biểu tương đối giống nhau thì hoàn toàn có thể tự động hóa được.

Bạn có thể tham khảo các thư viện như tabula-py hoặc camelot-py. Chúng hỗ trợ trích xuất bảng từ PDF khá tốt. Bạn thử tìm hiểu về chúng xem sao, có nhiều ví dụ trên mạng lắm.

Nếu bạn gặp khó khăn ở bước nào hoặc muốn chia sẻ thêm về cấu trúc file PDF cụ thể, cứ mạnh dạn hỏi nhé!

0

Chào bạn,

Mình cũng từng "vật lộn" với việc này rồi, tốn không ít thời gian với copy-paste thủ công. May mắn là có Python hỗ trợ đắc lực.

Ngoài tabula-py và camelot-py mà bạn kia đã gợi ý, bạn có thể cân nhắc thêm thư viện pdfminer.six nữa. Nó khá mạnh mẽ trong việc phân tích cấu trúc nội dung PDF, kể cả các ký tự, vị trí. Nếu bảng biểu trong PDF của bạn có định dạng phức tạp hơn một chút, pdfminer.six có thể cho bạn nhiều kiểm soát hơn.

Bạn đã thử qua các thư viện trên chưa? Cấu trúc bảng biểu của bạn có cố định hoàn toàn không, hay có biến đổi chút ít giữa các file? Chia sẻ thêm chi tiết để mọi người cùng hỗ trợ nhé!

3

Cái vụ trích xuất PDF về Excel này đúng là đau đầu thật! Mình cũng từng trải qua cảm giác copy-paste mệt mỏi đó.

Ngoài tabula-pycamelot-py mà các bạn đã chia sẻ, bạn có thể thử tìm hiểu thêm về PyPDF2 kết hợp với openpyxl. Mặc dù PyPDF2 chủ yếu để đọc văn bản, nhưng nếu cấu trúc PDF đơn giản, bạn có thể dùng nó để lấy nội dung văn bản rồi dùng logic xử lý để gom vào Excel. Cách này có thể linh hoạt hơn nếu bảng biểu không quá chuẩn.

Bạn đã thử các thư viện kia chưa? Nếu gặp khó khăn với việc định dạng bảng biểu phức tạp, mình có thể chia sẻ thêm kinh nghiệm về việc xử lý từng dòng.

5

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký