training/conf/network/conv_transformer.yaml


1
2
3
4
5
6
7
8
9
10
11

defaults:
  - encoder: efficientnet
  - decoder: transformer_decoder

_target_: text_recognizer.networks.conv_transformer.ConvTransformer
input_dims: [1, 576, 640]
hidden_dim: 96
dropout_rate: 0.2
max_output_len: 451
num_classes: 1006
pad_index: 1002