Dạo này công việc của mình liên quan nhiều đến việc xử lý file PDF, nào là trích xuất dữ liệu, đổi tên file, rồi lại gộp nhiều file PDF thành một. Làm thủ công thì tốn thời gian kinh khủng, mà sai sót thì không thể tránh khỏi. Sau một hồi tìm hiểu, mình phát hiện ra Python có thể giúp giải quyết mấy vụ này một cách tự động. Hôm nay mình chia sẻ lại cho anh em nào đang gặp vấn đề tương tự nhé.
Mình chủ yếu dùng thư viện PyPDF2. Nó khá nhẹ nhàng và dễ cài đặt. Chỉ cần chạy lệnh pip install pypdf2 là xong.
Một vài tác vụ cơ bản có thể làm được:
- Đọc nội dung văn bản từ file PDF.
- Tách một file PDF thành nhiều file nhỏ (ví dụ: tách từng trang thành từng file riêng).
- Gộp nhiều file PDF lại thành một file duy nhất.
- Nén file PDF để giảm dung lượng.
Ví dụ đơn giản để gộp 2 file PDF:
from PyPDF2 import PdfMerger
merger = PdfMerger()
merger.append("file1.pdf")
merger.append("file2.pdf")
with open("output.pdf", "wb") as fout:
merger.write(fout)
Cái này chỉ là phần nổi của tảng băng thôi. Python còn có thể làm được nhiều thứ hơn nữa với các thư viện khác như tabula-py để trích xuất bảng biểu từ PDF, hoặc pdf2image để chuyển PDF sang ảnh. Nếu anh em nào cần xử lý văn bản PDF thường xuyên thì nên tìm hiểu sâu hơn về Python.
Hy vọng chia sẻ này giúp ích được cho mọi người!