Chào các bạn, dạo này mình có làm việc nhiều với các file Excel xuất ra từ hệ thống, mà cứ hay bị lẫn mấy dòng trống không đâu. Xóa tay thì mất công quá, nhất là khi file lên tới vài nghìn dòng. Mình tìm tòi và thấy có cách dùng Python để giải quyết vụ này khá nhanh gọn. Chia sẻ với anh em nào cần nhé.
Cách làm rất đơn giản, mình chỉ cần dùng thư viện pandas là xong. Đầu tiên, các bạn cài đặt nó nếu chưa có:
pip install pandas openpyxl
Sau đó, viết một đoạn script Python nhỏ như sau:
import pandas as pd
# Đường dẫn tới file Excel của bạn
file_excel = 'du_lieu_cua_ban.xlsx'
# Đọc file Excel vào DataFrame
df = pd.read_excel(file_excel)
# Xóa các dòng chứa toàn bộ giá trị NaN (dòng trống)
df_cleaned = df.dropna(how='all')
# Lưu lại file Excel mới không có dòng trống
df_cleaned.to_excel('du_lieu_da_xu_ly.xlsx', index=False)
print('Đã xử lý xong! File mới: du_lieu_da_xu_ly.xlsx')Giải thích nhanh:
pd.read_excel(file_excel): Đọc dữ liệu từ file Excel vào một cấu trúc gọi là DataFrame.df.dropna(how='all'): Đây là lệnh chính, nó sẽ loại bỏ những dòng mà tất cả các ô trong dòng đó đều trống (NaN).df_cleaned.to_excel('du_lieu_da_xu_ly.xlsx', index=False): Lưu lại DataFrame đã xử lý vào một file Excel mới. Tham sốindex=Falseđể không ghi chỉ số dòng của pandas vào file Excel.
Cách này rất tiện, chỉ cần chạy script là xong. Hy vọng hữu ích cho mọi người!