Chào mọi người,
Dạo này mình có làm việc nhiều với dữ liệu văn bản trong Excel và nhận thấy các hàm xử lý chuỗi mặc định của Excel đôi khi khá rườm rà, đặc biệt là với các trường hợp phức tạp. Mình tình cờ khám phá ra cách dùng Python trong Excel để giải quyết vấn đề này khá hiệu quả và muốn chia sẻ lại với anh em trong diễn đàn.
Ví dụ, bạn có một cột chứa các mã sản phẩm có định dạng không nhất quán, ví dụ: SP-ABC-123, sp_def_456, Sp-ghi-789. Bạn muốn chuẩn hóa về dạng SP-ABC-123 (viết hoa chữ cái đầu, thay ký tự đặc biệt).
Thay vì dùng hàng loạt hàm SUBSTITUTE, UPPER, REPLACE lồng nhau, mình dùng Python script đơn giản như sau:
import pandas as pd
def normalize_product_code(code):
code = str(code).upper() # Chuyển về chữ hoa
code = code.replace('_', '-') # Thay thế ký tự đặc biệt
# Có thể thêm các xử lý khác ở đây
return code
df = xl(