CSV file input có bao gồm tiếng Nhật/Trung thì sẽ xảy ra error – Glue
tôi nghĩ nguyên nhân lỗi là do bạn đang sử dụng vectorized CSV reader không hỗ trợ tiếng Nhật [1]
Hãy kiểm tra xem trong code của bạn có configure như sau không nhé:
glueContext.create_dynamic_frame.from_options(
frame = datasource1,
connection_type = "s3",
connection_options = {"paths": ["s3://s3path"]},
format = "csv",
format_options={
"optimizePerformance": True,
"separator": ","
},
transformation_ctx = "datasink2")
nếu có optimizePerformance là True trong code, hoặc trong table properties thì hãy bỏ những ký tự multibytes như tiếng Nhật, tiếng Trung đi vì không support.
Tham khảo thêm:
Format Options for ETL Inputs and Outputs in AWS Glue
https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html
It doesn’t support reading CSV files with multiByte characters such as Japanese or Chinese characters.