1 2 3 4 5
_target_: text_recognizer.models.LitVqTransformer max_output_len: 682 start_token: <s> end_token: <e> pad_token: <p>