Chào mọi người,
Dạo này mình có một dự án cần xử lý khá nhiều tài liệu Word, và việc copy-paste thủ công từng chút một thực sự tốn thời gian. Tình cờ mình tìm hiểu và phát hiện ra có thể dùng Python để tự động hóa việc này. Hôm nay mình muốn chia sẻ lại với mọi người cách trích xuất thông tin từ file Word và đưa vào Excel một cách nhanh chóng.
Giả sử mình có một loạt các báo cáo tuần được lưu dưới dạng file .docx, và trong mỗi file có các mục thông tin cố định như: Tên nhân viên, Số giờ làm, Dự án đã thực hiện. Mình muốn gom tất cả những thông tin này vào một file Excel duy nhất để dễ dàng tổng hợp và phân tích.
Để làm được điều này, chúng ta cần cài đặt thư viện python-docx để đọc file Word và thư viện pandas để thao tác với dữ liệu và xuất ra Excel.
pip install python-docx pandas
Sau đó, mình sẽ viết một đoạn script Python đơn giản để:
- Tìm tất cả các file
.docxtrong một thư mục chỉ định. - Mở từng file, tìm và trích xuất các thông tin cần thiết (ví dụ: tìm các đoạn văn bản chứa từ khóa như 'Tên nhân viên:', 'Số giờ làm:', v.v.).
- Lưu các thông tin đã trích xuất vào một cấu trúc dữ liệu (ví dụ: list các dictionary).
- Cuối cùng, sử dụng pandas để tạo một DataFrame và xuất ra file
.xlsx.
Cách này giúp mình tiết kiệm được hàng giờ đồng hồ, đặc biệt khi có hàng chục, thậm chí hàng trăm file cần xử lý. Nếu bạn nào cũng đang gặp vấn đề tương tự với việc xử lý văn bản Word hoặc các định dạng file khác, có thể thử áp dụng Python nhé. Nó thực sự mở ra rất nhiều khả năng tự động hóa thú vị!
Có ai đã từng thử cách này hoặc có phương pháp nào khác hiệu quả hơn không, chia sẻ cho mình biết với!