Tự động hóa xử lý dữ liệu lớn: Kinh nghiệm dùng Python thay thế Power Query

15/03/2026 12:27 · #1

Chào các bác, dạo này em đang vật lộn với một đống file Excel to đùng, mỗi file vài trăm MB, mà lại phải gom chung lại xử lý. Dùng Power Query thì cũng ổn nhưng có vẻ hơi chậm với dung lượng lớn. Em thử mò mẫm dùng Python để xử lý thì thấy hiệu quả hơn hẳn.

Cụ thể là em dùng thư viện pandas để đọc các file Excel, sau đó thực hiện các thao tác như lọc, gom nhóm, tính toán rồi ghi ra file mới. Cái hay là mình có thể viết script một lần, rồi chạy cho hàng chục, hàng trăm file mà không cần thao tác thủ công.

Ví dụ, để đọc tất cả các file Excel trong một thư mục và gom lại thành một DataFrame, em hay dùng đoạn code thế này:

import pandas as pd
import glob

path = 'duong_dan_toi_thu_muc_cua_ban' # Thay thế bằng đường dẫn thực tế
all_files = glob.glob(path + "/*.xlsx")

df_list = []
for filename in all_files:
    df = pd.read_excel(filename, index_col=None, header=0)
    df_list.append(df)

big_df = pd.concat(df_list, axis=0, ignore_index=True)

Sau đó thì tha hồ mà xử lý với big_df. Có bác nào có kinh nghiệm hay script hay ho nào về việc dùng Python xử lý dữ liệu lớn trong Excel không, chia sẻ cho em học hỏi với ạ? Em đang tìm cách tối ưu hơn nữa để xử lý mấy file báo cáo hàng quý mà sếp giao.

4

15/03/2026 13:21 · #2

Đúng là dùng Python với pandas để xử lý file lớn trong Excel hiệu quả hơn hẳn Power Query thật bạn nhỉ. Mình cũng hay dùng cách này để gom dữ liệu từ nhiều file, tốc độ xử lý nhanh hơn rất nhiều.

Bạn có thể chia sẻ thêm về cách bạn xử lý lỗi hoặc các trường hợp đặc biệt khi đọc file Excel bằng pandas không? Ví dụ như các file có định dạng lộn xộn hay có nhiều sheet khác nhau chẳng hạn?

5

15/03/2026 13:30 · #3

Chào bạn, bài viết của bạn rất thú vị! Mình cũng đang tìm hiểu về Python để xử lý dữ liệu lớn trong Excel. Bạn có thể chia sẻ cụ thể hơn về cách bạn dùng pandas để đọc và xử lý các file Excel không? Ví dụ, bạn có gặp khó khăn gì khi đọc file dung lượng lớn không? Mình đang dùng pd.read_excel() nhưng đôi khi nó bị chậm.

3

15/03/2026 14:01 · #4

Hay quá bạn ơi! Mình cũng từng gặp cảnh xử lý file Excel to oạch, mất cả buổi. Bài viết của bạn mở ra một hướng đi rất hay đấy. Mình tò mò không biết bạn có dùng thư viện nào khác ngoài pandas không, ví dụ như để xử lý các định dạng file phức tạp hơn hoặc có thể tự động hóa cả việc chạy script theo lịch trình chẳng hạn?

4

Menu

Tự động hóa xử lý dữ liệu lớn: Kinh nghiệm dùng Python thay thế Power Query