Chào các bác, em là thành viên mới của diễn đàn mình. Dạo này em đang mày mò tự động hóa mấy tác vụ Excel bằng Python và thấy nó hiệu quả ghê. Đặc biệt là khâu làm sạch dữ liệu, em gặp nhiều file dữ liệu bị lỗi, thiếu sót, hoặc định dạng lung tung. Thay vì ngồi sửa tay từng tí một, em đã viết vài script Python để xử lý.
Em muốn chia sẻ với mọi người một vài script nhỏ mà em thấy hữu ích:
- Xóa khoảng trắng thừa: Đôi khi dữ liệu có những khoảng trắng không nhìn thấy được ở đầu hoặc cuối ô, gây lỗi khi so sánh hoặc tìm kiếm. Script này giúp loại bỏ chúng.
- Chuẩn hóa định dạng ngày tháng: Các file Excel khác nhau có thể lưu ngày tháng theo nhiều định dạng khác nhau (dd/mm/yyyy, mm-dd-yy, yyyy/mm/dd,...). Script này giúp đưa về một định dạng chuẩn.
- Xử lý giá trị thiếu (NaN): Thay thế các ô trống hoặc giá trị NaN bằng một giá trị mặc định (ví dụ: 0 hoặc 'N/A').
- Chuyển đổi kiểu dữ liệu: Đảm bảo các cột số được nhận diện là số, cột văn bản là văn bản.
Em thường dùng thư viện pandas để đọc file Excel vào DataFrame, xử lý rồi lưu lại. Ví dụ, để xóa khoảng trắng thừa, em dùng:
import pandas as pd
df = pd.read_excel('your_file.xlsx')
# Áp dụng cho tất cả các cột kiểu object (string)
for col in df.select_dtypes(include=['object']).columns:
df[col] = df[col].str.strip()
df.to_excel('cleaned_file.xlsx', index=False)
Mọi người có kinh nghiệm hay script hay ho nào về việc dùng Python để làm sạch dữ liệu Excel thì chia sẻ thêm cho em và mọi người cùng học hỏi nhé!