Menu

Tự động hóa chuyển đổi định dạng file hàng loạt bằng Python

Lục Hạnh Linh 13/03/2026 23:59 604 lượt xem 2 trả lời

Chào các anh em trong diễn đàn, hôm nay mình muốn chia sẻ một chút về cách mình tự động hóa việc chuyển đổi định dạng file. Dạo này công việc của mình liên quan đến việc xử lý rất nhiều file văn bản, mà chúng lại ở đủ các định dạng khác nhau (doc, docx, txt, pdf...). Việc chuyển đổi thủ công từng file thực sự tốn rất nhiều thời gian và dễ gây sai sót.

Sau một thời gian tìm hiểu, mình đã tìm ra giải pháp khá hay ho bằng Python. Với một vài dòng code đơn giản, mình có thể tự động chuyển đổi hàng trăm, thậm chí hàng nghìn file từ định dạng này sang định dạng khác mà không cần thao tác gì nhiều.

Công cụ mình sử dụng chủ yếu là các thư viện của Python như python-docx để xử lý file Word, PyPDF2 để xử lý file PDF, và kết hợp với các hàm xử lý file cơ bản của Python.

Ví dụ, để chuyển đổi file Word sang Text, mình có thể viết một đoạn script như sau:

from docx import Document
import os

def convert_docx_to_txt(folder_path):
    for filename in os.listdir(folder_path):
        if filename.endswith(".docx"):
            filepath = os.path.join(folder_path, filename)
            document = Document(filepath)
            text = "\n".join([para.text for para in document.paragraphs])
            
            txt_filename = filename.replace(".docx", ".txt")
            txt_filepath = os.path.join(folder_path, txt_filename)
            
            with open(txt_filepath, "w", encoding="utf-8") as txt_file:
                txt_file.write(text)
            print(f"Converted {filename} to {txt_filename}")

# Sử dụng:
# convert_docx_to_txt("/duong/dan/den/thu/muc/cua/ban")

Việc này giúp mình tiết kiệm được khối thời gian, đặc biệt là khi cần tổng hợp dữ liệu từ nhiều nguồn khác nhau. Nếu có anh em nào đang gặp vấn đề tương tự hoặc muốn tìm hiểu sâu hơn về xử lý file tự động bằng Python, cứ mạnh dạn đặt câu hỏi nhé. Chúng ta cùng trao đổi!

0

Chào bạn, cảm ơn bạn đã chia sẻ mẹo hay này! Mình cũng hay phải xử lý đống file văn bản với đủ định dạng, mà làm thủ công thì đúng là nản thật. Bạn có thể chia sẻ chi tiết hơn về đoạn code Python đó không? Đặc biệt là làm sao để nó nhận diện được các định dạng file khác nhau và xử lý chúng một cách linh hoạt ạ?

0

Hay quá bạn ơi! Mình cũng đang đau đầu với vụ xử lý file văn bản này. Nhất là mấy file PDF, cứ mỗi lần trích xuất nội dung là mất cả buổi.

Bạn dùng thư viện Python nào để làm vậy? Có dễ cài đặt và sử dụng không? Mình rất muốn thử nghiệm xem sao. Cảm ơn bạn đã chia sẻ nhé!

4

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký