new updates

author: aktersnurra <gustaf.rydholm@gmail.com> 2020-11-08 14:54:44 +0100
committer: aktersnurra <gustaf.rydholm@gmail.com> 2020-11-08 14:54:44 +0100
commit: dc28cbe2b4ed77be92ee8b2b69a20689c3bf02a4 (patch)
tree: 1b5fc0d06952e13727e85c4f973a26d277068453 /src/text_recognizer/datasets/transforms.py
parent: e181195a699d7fa237f256d90ab4dedffc03d405 (diff)
1 files changed, 40 insertions, 0 deletions
diff --git a/src/text_recognizer/datasets/transforms.py b/src/text_recognizer/datasets/transforms.py
index 17231a8..8deac7f 100644
--- a/src/text_recognizer/datasets/transforms.py
+++ b/src/text_recognizer/datasets/transforms.py
@@ -3,6 +3,9 @@ import numpy as np
 from PIL import Image
 import torch
 from torch import Tensor
+from torchvision.transforms import Compose, Resize, ToPILImage, ToTensor
+
+from text_recognizer.datasets.util import EmnistMapper
 
 
 class Transpose:
@@ -11,3 +14,40 @@ class Transpose:
     def __call__(self, image: Image) -> np.ndarray:
         """Swaps axis."""
         return np.array(image).swapaxes(0, 1)
+
+
+class AddTokens:
+    """Adds start of sequence and end of sequence tokens to target tensor."""
+
+    def __init__(self, pad_token: str, eos_token: str, init_token: str = None) -> None:
+        self.init_token = init_token
+        self.pad_token = pad_token
+        self.eos_token = eos_token
+        if self.init_token is not None:
+            self.emnist_mapper = EmnistMapper(
+                init_token=self.init_token,
+                pad_token=self.pad_token,
+                eos_token=self.eos_token,
+            )
+        else:
+            self.emnist_mapper = EmnistMapper(
+                pad_token=self.pad_token, eos_token=self.eos_token,
+            )
+        self.pad_value = self.emnist_mapper(self.pad_token)
+        self.eos_value = self.emnist_mapper(self.eos_token)
+
+    def __call__(self, target: Tensor) -> Tensor:
+        """Adds a sos token to the begining and a eos token to the end of a target sequence."""
+        dtype, device = target.dtype, target.device
+
+        # Find the where padding starts.
+        pad_index = torch.nonzero(target == self.pad_value, as_tuple=False)[0].item()
+
+        target[pad_index] = self.eos_value
+
+        if self.init_token is not None:
+            self.sos_value = self.emnist_mapper(self.init_token)
+            sos = torch.tensor([self.sos_value], dtype=dtype, device=device)
+            target = torch.cat([sos, target], dim=0)
+
+        return target
author	aktersnurra <gustaf.rydholm@gmail.com>	2020-11-08 14:54:44 +0100
committer	aktersnurra <gustaf.rydholm@gmail.com>	2020-11-08 14:54:44 +0100
commit	dc28cbe2b4ed77be92ee8b2b69a20689c3bf02a4 (patch)
tree	1b5fc0d06952e13727e85c4f973a26d277068453 /src/text_recognizer/datasets/transforms.py
parent	e181195a699d7fa237f256d90ab4dedffc03d405 (diff)