Gần đây, mình có làm mấy cái tool bằng python để crawl data ở Nhật, không may là dữ liệu tiếng Nhật bị lỗi không đọc được. Mình có tìm phương pháp để fix nên note lại để xem như là tư liệu tham khảo về sau.
Hiện tượng lỗi
Khi bạn cố gắng đọc hoặc ghi vào file bằng python mà có tồn tại ký tự tiếng Nhật thì sẽ báo lỗi UnicodeEncodeError.
Cách khắc phục
Đơn giản là chỗ đọc hoặc ghi file bạn thêm đoạn encoding vào là được nhé. Như minh họa của mình bên dưới.
file = open('sample.json', 'r', encoding="utf8", errors='ignore')
a = json.loads(file.read())
file.close()
Hi vọng một tips nhỏ có thể giúp các bạn khắc phục nhanh lỗi mà mình nếu có thể gặp phải.
Tags:
kien-thuc