Tự động hóa việc chuẩn hóa dữ liệu Excel với Python: Xử lý khoảng trắng thừa

Chào các bạn, mình là thành viên mới của nhóm. Mình đang tìm hiểu về Python trong Excel và thấy nó thực sự mạnh mẽ. Hôm nay mình muốn chia sẻ một tình huống nhỏ mà mình đã xử lý thành công bằng Python, hy vọng sẽ hữu ích cho mọi người.

Trong quá trình làm việc với dữ liệu Excel, đặc biệt là khi tổng hợp từ nhiều nguồn, mình thường xuyên gặp phải vấn đề dữ liệu bị dính khoảng trắng thừa ở đầu hoặc cuối ô. Điều này gây ra rất nhiều khó khăn khi thực hiện các phép tính, lọc hay tìm kiếm. Mặc dù Excel có hàm TRIM, nhưng khi xử lý hàng ngàn dòng thì khá mất thời gian.

Mình đã nghĩ đến việc dùng Python để xử lý vấn đề này một cách tự động. Với thư viện pandas, việc này trở nên rất đơn giản.

Đây là đoạn code Python mình dùng:

import pandas as pd

# Giả sử bạn đã có DataFrame tên là df
# Ví dụ:
df = pd.read_excel('du_lieu_cua_ban.xlsx')

# Lặp qua tất cả các cột có kiểu dữ liệu là object (thường là chuỗi)
for col in df.select_dtypes(include=['object']).columns:
    df[col] = df[col].str.strip()

# Lưu lại file Excel đã xử lý
df.to_excel('du_lieu_da_chuan_hoa.xlsx', index=False)

Cách này giúp mình loại bỏ tất cả các khoảng trắng thừa ở đầu và cuối của các ô chứa văn bản trong toàn bộ file Excel một cách nhanh chóng. Các bạn có thể áp dụng nó để làm sạch dữ liệu trước khi đưa vào phân tích hoặc xử lý tiếp trong Excel.

Có bạn nào có kinh nghiệm khác trong việc chuẩn hóa dữ liệu Excel bằng Python không? Chia sẻ thêm cho mọi người cùng học hỏi nhé!

Menu

Tự động hóa việc chuẩn hóa dữ liệu Excel với Python: Xử lý khoảng trắng thừa