Chào mọi người,
Dạo này mình đang mày mò với Python trong Excel và gặp một tình huống khá oái oăm. Sếp giao cho mình tổng hợp báo cáo từ nhiều file Excel, mà khổ nỗi các file này lại có cấu trúc sheet hơi khác nhau một chút (tên cột có thể sai chính tả, thứ tự cột lộn xộn, hoặc có sheet thừa/thiếu cột).
Mình đã thử một vài script Pandas để gom dữ liệu từ các file có cấu trúc giống hệt nhau, nhưng với trường hợp này thì hơi vất vả. Mình muốn hỏi có anh em nào đã từng xử lý vấn đề tương tự chưa?
Ý tưởng của mình là dùng Python để:
- Đọc từng file Excel trong một thư mục.
- Với mỗi file, xác định các cột cần thiết dựa trên một danh sách tên cột chuẩn (có thể chấp nhận sai chính tả nhỏ hoặc các tên gọi tương đương).
- Trích xuất dữ liệu từ các cột đó, chuẩn hóa tên cột về dạng chuẩn.
- Gom tất cả dữ liệu đã chuẩn hóa vào một DataFrame duy nhất.
Mình nghĩ có thể dùng thư viện fuzzywuzzy để xử lý việc so khớp tên cột không chính xác. Hoặc có cách nào hiệu quả hơn không ạ?
Rất mong nhận được sự chia sẻ kinh nghiệm hoặc gợi ý từ các cao thủ Python và Excel trong diễn đàn mình.
Cảm ơn mọi người!