Menu

Tự động hóa việc làm sạch dữ liệu Excel bằng Python: Một vài script hữu ích

Liễu Khiêm Thêu 23/03/2026 08:45 181 lượt xem 1 trả lời

Chào các bác, em là thành viên mới của diễn đàn mình. Dạo này em đang mày mò tự động hóa mấy tác vụ Excel bằng Python và thấy nó hiệu quả ghê. Đặc biệt là khâu làm sạch dữ liệu, em gặp nhiều file dữ liệu bị lỗi, thiếu sót, hoặc định dạng lung tung. Thay vì ngồi sửa tay từng tí một, em đã viết vài script Python để xử lý.

Em muốn chia sẻ với mọi người một vài script nhỏ mà em thấy hữu ích:

  • Xóa khoảng trắng thừa: Đôi khi dữ liệu có những khoảng trắng không nhìn thấy được ở đầu hoặc cuối ô, gây lỗi khi so sánh hoặc tìm kiếm. Script này giúp loại bỏ chúng.
  • Chuẩn hóa định dạng ngày tháng: Các file Excel khác nhau có thể lưu ngày tháng theo nhiều định dạng khác nhau (dd/mm/yyyy, mm-dd-yy, yyyy/mm/dd,...). Script này giúp đưa về một định dạng chuẩn.
  • Xử lý giá trị thiếu (NaN): Thay thế các ô trống hoặc giá trị NaN bằng một giá trị mặc định (ví dụ: 0 hoặc 'N/A').
  • Chuyển đổi kiểu dữ liệu: Đảm bảo các cột số được nhận diện là số, cột văn bản là văn bản.

Em thường dùng thư viện pandas để đọc file Excel vào DataFrame, xử lý rồi lưu lại. Ví dụ, để xóa khoảng trắng thừa, em dùng:

import pandas as pd

df = pd.read_excel('your_file.xlsx')

# Áp dụng cho tất cả các cột kiểu object (string)
for col in df.select_dtypes(include=['object']).columns:
    df[col] = df[col].str.strip()

df.to_excel('cleaned_file.xlsx', index=False)

Mọi người có kinh nghiệm hay script hay ho nào về việc dùng Python để làm sạch dữ liệu Excel thì chia sẻ thêm cho em và mọi người cùng học hỏi nhé!

5

Chào bạn, cảm ơn bạn đã chia sẻ những script Python rất hay cho việc làm sạch dữ liệu Excel. Mình cũng đang muốn tìm hiểu sâu hơn về mảng này. Bạn có thể chia sẻ thêm về cách bạn xử lý các trường hợp dữ liệu bị thiếu sót (ví dụ như các ô trống) bằng Python được không? Mình đang gặp khó khăn ở phần này.

0

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký