1 files changed, 9 insertions, 7 deletions
diff --git a/training/conf/experiment/conv_transformer_paragraphs.yaml b/training/conf/experiment/conv_transformer_paragraphs.yaml
index 60898da..60ff1bf 100644
--- a/training/conf/experiment/conv_transformer_paragraphs.yaml
+++ b/training/conf/experiment/conv_transformer_paragraphs.yaml
@@ -13,13 +13,12 @@ tags: [paragraphs]
 epochs: &epochs 600
 num_classes: &num_classes 58
 ignore_index: &ignore_index 3
-max_output_len: &max_output_len 682
+# max_output_len: &max_output_len 682
 # summary: [[1, 1, 576, 640], [1, 682]]
 
 logger:
   wandb:
     tags: ${tags}
-    id: 8je5lxmx
 
 criterion:
   ignore_index: *ignore_index
@@ -67,9 +66,9 @@ network:
   encoder:
     _target_: text_recognizer.networks.convnext.ConvNext
     dim: 16
-    dim_mults: [2, 4, 8, 8]
-    depths: [3, 3, 6, 6]
-    downsampling_factors: [[2, 2], [2, 2], [2, 2], [2, 1]]
+    dim_mults: [1, 2, 4, 8, 8]
+    depths: [3, 3, 3, 3, 6]
+    downsampling_factors: [[2, 2], [2, 2], [2, 1], [2, 1], [2, 1]]
     attn:
       _target_: text_recognizer.networks.convnext.TransformerBlock
       attn:
@@ -118,7 +117,7 @@ network:
     _target_: "text_recognizer.networks.transformer.embeddings.axial.\
       AxialPositionalEmbeddingImage"
     dim: *hidden_dim
-    axial_shape: [36, 80]
+    axial_shape: [18, 160]
     axial_dims: [64, 64]
   token_pos_embedding:
     _target_: "text_recognizer.networks.transformer.embeddings.fourier.\
@@ -130,4 +129,7 @@ network:
 trainer:
   gradient_clip_val: 1.0
   max_epochs: *epochs
-  accumulate_grad_batches: 6
+  accumulate_grad_batches: 8
+  limit_train_batches: 1.0
+  limit_val_batches: 1.0
+  limit_test_batches: 1.0