Chào mọi người,
Dạo này mình đang tập tành dùng Python để xử lý dữ liệu Excel và thấy nó tiện lợi thật sự. Hôm nay mình muốn chia sẻ một mẹo nhỏ mà mình vừa khám phá ra, giúp tự động hóa việc tạo một danh sách duy nhất (unique list) từ nhiều cột khác nhau trong file Excel.
Trước đây, mỗi lần cần làm việc này, mình thường phải copy toàn bộ dữ liệu từ các cột cần lấy, paste vào một cột mới, rồi dùng chức năng Remove Duplicates của Excel. Cách này khá thủ công và tốn thời gian, đặc biệt khi dữ liệu lớn.
Với Python, mình có thể làm điều này chỉ với vài dòng code đơn giản sử dụng thư viện pandas:
import pandas as pd
# Giả sử bạn có file Excel tên 'du_lieu.xlsx'
df = pd.read_excel('du_lieu.xlsx')
# Lấy dữ liệu từ các cột 'Cot1', 'Cot2', 'Cot3'
data_from_columns = pd.concat([df['Cot1'], df['Cot2'], df['Cot3']])
# Tạo danh sách duy nhất
unique_list = data_from_columns.unique()
# Chuyển danh sách duy nhất về DataFrame để lưu vào Excel
unique_df = pd.DataFrame(unique_list, columns=['DanhSachDuyNhat'])
# Lưu kết quả ra file Excel mới
unique_df.to_excel('danh_sach_duy_nhat.xlsx', index=False)
print('Đã tạo xong danh sách duy nhất!')Cách này giúp tiết kiệm rất nhiều thời gian và đảm bảo tính chính xác. Mọi người có thể tùy chỉnh tên file, tên các cột sao cho phù hợp với file Excel của mình.
Có ai có cách nào hay hơn hoặc muốn thảo luận thêm về việc dùng Python trong Excel không ạ?