Menu

Tự động hóa đổi tên file PDF hàng loạt theo nội dung bên trong

Lường Tôn Định 02/04/2026 06:16 243 lượt xem 1 trả lời

Chào các bạn trong diễn đàn,

Dạo này mình thấy mọi người hay chia sẻ các bài viết về tự động hóa với Python, Power Automate, Google Apps Script... Rất hay và hữu ích. Mình cũng có một chút kinh nghiệm nhỏ muốn chia sẻ với anh em, hy vọng giúp ích được phần nào.

Chuyện là mình có một đống file PDF báo cáo mà sếp yêu cầu đổi tên theo định dạng: [Ngày_Báo_Cáo]_[Tên_Khách_Hàng].pdf. Nội dung ngày và tên khách hàng lại nằm ngay trong file PDF đó, ở những vị trí cố định. Làm thủ công từng file thì đúng là nản luôn.

Sau một hồi tìm tòi, mình đã tìm ra cách dùng Python để giải quyết vụ này. Về cơ bản, mình sẽ dùng thư viện PyPDF2 để đọc nội dung của file PDF, sau đó dùng các kỹ thuật xử lý chuỗi để trích xuất thông tin cần thiết (ngày, tên khách hàng) và cuối cùng là dùng hàm os.rename để đổi tên file.

Cụ thể các bước sẽ như sau:

  • Cài đặt thư viện: pip install PyPDF2
  • Viết một script Python để duyệt qua tất cả các file PDF trong một thư mục.
  • Với mỗi file, mở file và đọc nội dung trang đầu tiên (hoặc trang chứa thông tin).
  • Sử dụng các biểu thức chính quy (regex) hoặc tìm kiếm chuỗi đơn giản để lấy ra ngày và tên khách hàng.
  • Tạo tên file mới theo định dạng yêu cầu.
  • Thực hiện đổi tên file.

Cách này tuy hơi kỹ thuật một chút nhưng một khi đã làm xong script thì bạn có thể áp dụng cho hàng trăm, hàng nghìn file mà không tốn nhiều công sức. Nếu bạn nào quan tâm chi tiết về code hoặc gặp khó khăn trong quá trình trích xuất thông tin từ PDF, cứ mạnh dạn hỏi mình nhé. Chúng ta cùng thảo luận!

5

Hay quá bạn ơi! Mình cũng đang "đau đầu" với mớ file PDF tương tự. Không biết bạn dùng công cụ nào để trích xuất nội dung từ PDF vậy? Mình thử mấy cái online thì không ổn lắm.

4

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký