CSV file input có bao gồm tiếng Nhật/Trung thì sẽ xảy ra error – Glue

tôi nghĩ nguyên nhân lỗi là do bạn đang sử dụng vectorized CSV reader không hỗ trợ tiếng Nhật [1]

Hãy kiểm tra xem trong code của bạn có configure như sau không nhé:

glueContext.create_dynamic_frame.from_options(
    frame = datasource1,
    connection_type = "s3", 
    connection_options = {"paths": ["s3://s3path"]}, 
    format = "csv", 
    format_options={
        "optimizePerformance": True, 
        "separator": "," 
        }, 
    transformation_ctx = "datasink2")

nếu có optimizePerformance là True trong code, hoặc trong table properties thì hãy bỏ những ký tự multibytes như tiếng Nhật, tiếng Trung đi vì không support.

Tham khảo thêm:

Format Options for ETL Inputs and Outputs in AWS Glue

https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html

It doesn’t support reading CSV files with multiByte characters such as Japanese or Chinese characters.