Tự động hóa xử lý dữ liệu Excel bằng Python: Đọc, lọc và ghi dữ liệu với Pandas

Chào mọi người,

Dạo này mình đang tập tành làm quen với Python để tự động hóa các tác vụ trên Excel, thấy khá là hay nên muốn chia sẻ với anh em trong diễn đàn.

Mình thấy nhiều anh em vẫn còn vất vả với việc xử lý dữ liệu Excel thủ công, nhất là khi file có dung lượng lớn hoặc cần thực hiện các thao tác lặp đi lặp lại. Python, đặc biệt là thư viện Pandas, thực sự là một 'vũ khí' lợi hại trong trường hợp này.

Hôm nay mình muốn chia sẻ một ví dụ đơn giản về cách dùng Pandas để đọc dữ liệu từ file Excel, lọc ra những dòng thỏa mãn điều kiện và ghi kết quả ra một file Excel mới.

Các bước thực hiện:

Cài đặt thư viện Pandas: pip install pandas openpyxl (openpyxl cần thiết để đọc/ghi file .xlsx)
Viết code Python:

import pandas as pd

# Đường dẫn đến file Excel gốc
input_file = 'du_lieu_goc.xlsx'
# Đường dẫn đến file Excel kết quả
output_file = 'du_lieu_loc.xlsx'

# Đọc dữ liệu từ file Excel
df = pd.read_excel(input_file)

# Ví dụ: Lọc ra các dòng có 'Doanh thu' > 1000
df_filtered = df[df['Doanh thu'] > 1000]

# Ghi dữ liệu đã lọc ra file Excel mới
df_filtered.to_excel(output_file, index=False)

print(f'Đã lọc và lưu dữ liệu vào {output_file}')

Với đoạn code trên, bạn có thể dễ dàng thay đổi tên file, tên cột và điều kiện lọc để phù hợp với nhu cầu của mình.

Đây chỉ là một ví dụ rất cơ bản, Pandas còn có thể làm được nhiều thứ phức tạp hơn nữa như merge, group by, xử lý dữ liệu thiếu, v.v.

Anh em nào có kinh nghiệm hoặc có thắc mắc gì về việc dùng Python với Excel thì cùng thảo luận nhé!

Menu

Tự động hóa xử lý dữ liệu Excel bằng Python: Đọc, lọc và ghi dữ liệu với Pandas