Transfomer added, many other changes.

author: aktersnurra <gustaf.rydholm@gmail.com> 2020-10-22 22:45:58 +0200
committer: aktersnurra <gustaf.rydholm@gmail.com> 2020-10-22 22:45:58 +0200
commit: 4d7713746eb936832e84852e90292936b933e87d (patch)
tree: 2b2519d1d2ce53d4e1390590f52018d55dadbc7c /src/text_recognizer/networks/transformer/positional_encoding.py
parent: 1b3b8073a19f939d18a0bb85247eb0d99284f7cc (diff)
1 files changed, 31 insertions, 0 deletions
diff --git a/src/text_recognizer/networks/transformer/positional_encoding.py b/src/text_recognizer/networks/transformer/positional_encoding.py
new file mode 100644
index 0000000..a47141b
--- /dev/null
+++ b/src/text_recognizer/networks/transformer/positional_encoding.py
@@ -0,0 +1,31 @@
+"""A positional encoding for the image features, as the transformer has no notation of the order of the sequence."""
+import numpy as np
+import torch
+from torch import nn
+from torch import Tensor
+
+
+class PositionalEncoding(nn.Module):
+    """Encodes a sense of distance or time for transformer networks."""
+
+    def __init__(
+        self, hidden_dim: int, dropout_rate: float, max_len: int = 1000
+    ) -> None:
+        super().__init__()
+        self.dropout = nn.Dropout(p=dropout_rate)
+
+        pe = torch.zeros(max_len, hidden_dim)
+        position = torch.arange(0, max_len).unsqueeze(1)
+        div_term = torch.exp(
+            torch.arange(0, hidden_dim, 2) * -(np.log(10000.0) / hidden_dim)
+        )
+
+        pe[:, 0::2] = torch.sin(position * div_term)
+        pe[:, 1::2] = torch.cos(position * div_term)
+        pe = pe.unsqueeze(0)
+        self.register_buffer("pe", pe)
+
+    def forward(self, x: Tensor) -> Tensor:
+        """Encodes the tensor with a postional embedding."""
+        x = x + self.pe[:, : x.shape[1]]
+        return self.dropout(x)
author	aktersnurra <gustaf.rydholm@gmail.com>	2020-10-22 22:45:58 +0200
committer	aktersnurra <gustaf.rydholm@gmail.com>	2020-10-22 22:45:58 +0200
commit	4d7713746eb936832e84852e90292936b933e87d (patch)
tree	2b2519d1d2ce53d4e1390590f52018d55dadbc7c /src/text_recognizer/networks/transformer/positional_encoding.py
parent	1b3b8073a19f939d18a0bb85247eb0d99284f7cc (diff)