elixir-nx · seanmor5 · Jan 16, 2023 · Jan 16, 2023 · josevalim · Jan 17, 2023
diff --git a/lib/axon/loop.ex b/lib/axon/loop.ex
@@ -351,7 +351,7 @@ defmodule Axon.Loop do
           loss: Nx.tensor(0.0),
           gradient_step: Nx.tensor(0),
           model_state: model_state,
-          gradient_state: zeros_like(model_state),
+          gradient_state: zeros_like(model_state, type: :f32),
           optimizer_state: optimizer_state,
           loss_scale_state: loss_scale_state
         }
@@ -458,30 +458,26 @@ defmodule Axon.Loop do
     opts = keyword!(opts, [:steps])
     steps = opts[:steps]
 
-    # TODO: temporarily disabled
-    # while {gradients, model_state, new_state, optimizer_state, gradient_state, gradient_step,
-    # flag = Nx.tensor(1)},
-    # flag do
-    # if Nx.greater_equal(gradient_step, steps - 1) do
     {_, new_model_state, _, new_optimizer_state, new_gradient_state, new_gradient_step, _} =
-      (
-        {updates, new_optimizer_state} =
-          update_optimizer_fn.(gradients, optimizer_state, model_state)
-
-        new_gradient_state = zeros_like(model_state)
-        new_model_state = Axon.Updates.apply_updates(model_state, updates, new_state)
-
-        {gradients, new_model_state, new_state, new_optimizer_state, new_gradient_state, 0,
-         Nx.tensor(0)}
-      )
-
-    #   else
-    #     acc_gradients = deep_merge(gradient_state, gradients, fn x, y -> x + y end)
-
-    #     {gradients, model_state, new_state, optimizer_state, acc_gradients, gradient_step + 1,
-    #      Nx.tensor(0)}
-    #   end
-    # end
+      while {gradients, model_state, new_state, optimizer_state, gradient_state, gradient_step,
+             flag = Nx.tensor(1)},
+            flag do
+        if Nx.greater_equal(gradient_step, steps - 1) do
+          {updates, new_optimizer_state} =
+            update_optimizer_fn.(gradients, optimizer_state, model_state)
+
+          new_gradient_state = zeros_like(model_state)
+          new_model_state = Axon.Updates.apply_updates(model_state, updates, new_state)
+
+          {gradients, new_model_state, new_state, new_optimizer_state, new_gradient_state, 0,
+           Nx.tensor(0)}
+        else
+          acc_gradients = deep_merge(gradient_state, gradients, fn x, y -> x + y end)
+
+          {gradients, model_state, new_state, optimizer_state, acc_gradients, gradient_step + 1,
+           Nx.tensor(0)}
+        end
+      end
 
     {new_model_state, new_optimizer_state, new_gradient_state, new_gradient_step}
   end

diff --git a/lib/axon/shared.ex b/lib/axon/shared.ex
@@ -129,14 +129,15 @@ defmodule Axon.Shared do
   Creates a zeros-like structure which matches the structure
   of the input.
   """
-  defn zeros_like(params) do
-    transform(
-      params,
-      &deep_new(&1, fn x ->
-        fun = Axon.Initializers.zeros()
-        fun.(Nx.shape(x), Nx.type(x))
-      end)
-    )
+  deftransform zeros_like(params, opts \\ []) do
+    opts = Keyword.validate!(opts, [:type])
+    fun = Axon.Initializers.zeros()
+
+    deep_new(params, fn x ->
+      type = opts[:type] || Nx.type(x)
+      fun = Axon.Initializers.zeros()
+      fun.(Nx.shape(x), type)
+    end)
   end
 
   @doc """

diff --git a/lib/axon/updates.ex b/lib/axon/updates.ex
@@ -62,7 +62,7 @@ defmodule Axon.Updates do
       end
 
       defnp init_my_update(params) do
-        state = zeros_like(params)
+        state = zeros_like(params, type: :f32)
         %{state: state}
       end
 
@@ -165,8 +165,8 @@ defmodule Axon.Updates do
   end
 
   defnp init_scale_by_adam(params) do
-    mus = zeros_like(params)
-    nus = zeros_like(params)
+    mus = zeros_like(params, type: :f32)
+    nus = zeros_like(params, type: :f32)
     count = Nx.tensor(0)
     %{mu: mus, nu: nus, count: count}
   end
@@ -333,8 +333,8 @@ defmodule Axon.Updates do
   end
 
   defnp init_scale_by_belief(params) do
-    mus = zeros_like(params)
-    nus = zeros_like(params)
+    mus = zeros_like(params, type: :f32)
+    nus = zeros_like(params, type: :f32)
     count = Nx.tensor(0)
     %{mu: mus, nu: nus, count: count}
   end
@@ -394,7 +394,7 @@ defmodule Axon.Updates do
   end
 
   defnp init_scale_by_stddev(params, value) do
-    mu = zeros_like(params)
+    mu = zeros_like(params, type: :f32)
     nu = fulls_like(params, value)
     %{mu: mu, nu: nu}
   end
@@ -486,8 +486,8 @@ defmodule Axon.Updates do
   end
 
   defnp init_scale_by_radam(params) do
-    mu = zeros_like(params)
-    nu = zeros_like(params)
+    mu = zeros_like(params, type: :f32)
+    nu = zeros_like(params, type: :f32)
     count = Nx.tensor(0)
     %{mu: mu, nu: nu, count: count}
   end
@@ -564,7 +564,7 @@ defmodule Axon.Updates do
   end
 
   defnp init_trace(params) do
-    trace = zeros_like(params)
+    trace = zeros_like(params, type: :f32)
     %{trace: trace}
   end