Chào các anh em trong diễn đàn, hôm nay mình muốn chia sẻ một chút về cách mình tự động hóa việc chuyển đổi định dạng file. Dạo này công việc của mình liên quan đến việc xử lý rất nhiều file văn bản, mà chúng lại ở đủ các định dạng khác nhau (doc, docx, txt, pdf...). Việc chuyển đổi thủ công từng file thực sự tốn rất nhiều thời gian và dễ gây sai sót.
Sau một thời gian tìm hiểu, mình đã tìm ra giải pháp khá hay ho bằng Python. Với một vài dòng code đơn giản, mình có thể tự động chuyển đổi hàng trăm, thậm chí hàng nghìn file từ định dạng này sang định dạng khác mà không cần thao tác gì nhiều.
Công cụ mình sử dụng chủ yếu là các thư viện của Python như python-docx để xử lý file Word, PyPDF2 để xử lý file PDF, và kết hợp với các hàm xử lý file cơ bản của Python.
Ví dụ, để chuyển đổi file Word sang Text, mình có thể viết một đoạn script như sau:
from docx import Document
import os
def convert_docx_to_txt(folder_path):
for filename in os.listdir(folder_path):
if filename.endswith(".docx"):
filepath = os.path.join(folder_path, filename)
document = Document(filepath)
text = "\n".join([para.text for para in document.paragraphs])
txt_filename = filename.replace(".docx", ".txt")
txt_filepath = os.path.join(folder_path, txt_filename)
with open(txt_filepath, "w", encoding="utf-8") as txt_file:
txt_file.write(text)
print(f"Converted {filename} to {txt_filename}")
# Sử dụng:
# convert_docx_to_txt("/duong/dan/den/thu/muc/cua/ban")Việc này giúp mình tiết kiệm được khối thời gian, đặc biệt là khi cần tổng hợp dữ liệu từ nhiều nguồn khác nhau. Nếu có anh em nào đang gặp vấn đề tương tự hoặc muốn tìm hiểu sâu hơn về xử lý file tự động bằng Python, cứ mạnh dạn đặt câu hỏi nhé. Chúng ta cùng trao đổi!