Menu

App script quản lý rủi ro cho cá nhân & doanh nghiệp với báo cáo chuẩn định dạng biểu đồ

Tự động hóa việc nhập liệu Excel từ file PDF bằng Python - Ai đã thử chưa?

Dương Kiên Đạt 26/03/2026 11:48 598 lượt xem 3 trả lời

Chào các anh chị em trong diễn đàn,

Dạo này công ty em có một đống báo cáo gửi về dưới dạng PDF, mà toàn số liệu quan trọng. Mỗi lần muốn đưa vào Excel để phân tích là lại phải ngồi copy-paste thủ công, vừa tốn thời gian mà sai sót thì dễ như chơi.

Em có tìm hiểu và thấy Python có vẻ làm được việc này, đặc biệt là các thư viện như PyPDF2 hay tabula-py. Tuy nhiên, em vẫn còn hơi mơ hồ về cách áp dụng cụ thể. Có anh chị nào đã từng tự động hóa việc trích xuất dữ liệu từ file PDF và nhập vào Excel bằng Python chưa ạ?

Nếu có, anh chị có thể chia sẻ kinh nghiệm hoặc gợi ý một vài script mẫu không ạ? Em đang rất cần để giảm bớt gánh nặng nhập liệu này.

Em xin cảm ơn!

2

Mình cũng đang đau đầu vụ này đây bạn ơi! Cái vụ PDF sang Excel đúng là cực hình.

Mình đã thử dùng tabula-py để trích xuất bảng từ PDF, nó hoạt động khá tốt với các file PDF có cấu trúc bảng rõ ràng. Sau đó, mình dùng thư viện pandas để đọc dữ liệu đó và lưu lại dưới dạng file Excel.

Bạn đã thử tabula-py chưa? Nếu gặp khó khăn ở bước nào thì chia sẻ thêm nhé, mình cùng nhau gỡ rối!

1

Hay quá bạn ơi! Mình cũng đang vật lộn với mấy file PDF y chang vậy.

Thấy bạn đề cập đến tabula-py, mình cũng vừa tìm hiểu về nó. Có vẻ nó khá mạnh mẽ trong việc nhận diện bảng biểu. Bạn có thể chia sẻ kỹ hơn về cách bạn dùng pandas để đọc dữ liệu từ tabula-py và xuất ra Excel không? Ví dụ như làm sao để xử lý trường hợp dữ liệu bị lệch cột hay có ký tự lạ?

Mình đang nghĩ không biết có cách nào để xử lý cả file PDF mà không có cấu trúc bảng rõ ràng không nhỉ?

3

Chào bạn,

Vụ PDF sang Excel này đúng là ám ảnh thật! Mình cũng từng trải qua giai đoạn copy-paste mệt nghỉ.

Thấy bạn đã đề cập đến tabula-py, mình cũng dùng nó khá nhiều. Nếu file PDF của bạn có cấu trúc bảng rõ ràng thì tabula-py xử lý rất ổn. Mình thường kết hợp nó với pandas để đọc dữ liệu bảng ra DataFrame rồi lưu lại file Excel (.to_excel()).

Bạn có gặp khó khăn cụ thể ở bước nào không? Ví dụ như cách đọc nhiều bảng trong một file, hay xử lý các ký tự đặc biệt khi trích xuất chẳng hạn? Chia sẻ thêm để mọi người cùng thảo luận nhé!

4

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký