Menu

App script quản lý rủi ro cho cá nhân & doanh nghiệp với báo cáo chuẩn định dạng biểu đồ

Tự động hóa việc gom dữ liệu từ nhiều sheet theo cấu trúc khác nhau

Á Nhân Trâm 26/03/2026 22:08 368 lượt xem 1 trả lời

Chào mọi người,

Dạo này mình đang mày mò với Python trong Excel và gặp một tình huống khá oái oăm. Sếp giao cho mình tổng hợp báo cáo từ nhiều file Excel, mà khổ nỗi các file này lại có cấu trúc sheet hơi khác nhau một chút (tên cột có thể sai chính tả, thứ tự cột lộn xộn, hoặc có sheet thừa/thiếu cột).

Mình đã thử một vài script Pandas để gom dữ liệu từ các file có cấu trúc giống hệt nhau, nhưng với trường hợp này thì hơi vất vả. Mình muốn hỏi có anh em nào đã từng xử lý vấn đề tương tự chưa?

Ý tưởng của mình là dùng Python để:

  • Đọc từng file Excel trong một thư mục.
  • Với mỗi file, xác định các cột cần thiết dựa trên một danh sách tên cột chuẩn (có thể chấp nhận sai chính tả nhỏ hoặc các tên gọi tương đương).
  • Trích xuất dữ liệu từ các cột đó, chuẩn hóa tên cột về dạng chuẩn.
  • Gom tất cả dữ liệu đã chuẩn hóa vào một DataFrame duy nhất.

Mình nghĩ có thể dùng thư viện fuzzywuzzy để xử lý việc so khớp tên cột không chính xác. Hoặc có cách nào hiệu quả hơn không ạ?

Rất mong nhận được sự chia sẻ kinh nghiệm hoặc gợi ý từ các cao thủ Python và Excel trong diễn đàn mình.

Cảm ơn mọi người!

0

Chào bạn,

Vụ gom dữ liệu từ các file có cấu trúc khác nhau này đúng là "kinh điển" trong Excel luôn. Mình hiểu cảm giác của bạn lúc này.

Với Python trong Excel, bạn thử dùng thư viện pandas xem sao. Thay vì gom trực tiếp, mình có thể xử lý từng file một. Ví dụ, bạn có thể viết một hàm để chuẩn hóa tên cột (dùng fuzzy matching hoặc dictionary mapping) và sau đó mới tiến hành gom lại.

Bạn có thể chia sẻ chi tiết hơn về sự khác biệt giữa các sheet không? Ví dụ, tên cột sai chính tả ở mức độ nào, có sheet nào bị thiếu/thừa những cột quan trọng không? Thông tin này sẽ giúp mọi người đưa ra giải pháp cụ thể hơn đó.

4

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký