FluxML · mcabbott · Jan 7, 2023 · Dec 23, 2022 · Dec 23, 2022 · Dec 26, 2022
diff --git a/docs/src/reference.md b/docs/src/reference.md
@@ -44,12 +44,13 @@ logsoftmax
 
 ## Pooling
 
-`Flux`'s `AdaptiveMaxPool`, `AdaptiveMeanPool`, `GlobalMaxPool`, `GlobalMeanPool`, `MaxPool`, and `MeanPool` use `NNlib.PoolDims`, `NNlib.maxpool`, and `NNlib.meanpool` as their backend.
+`Flux`'s `AdaptiveMaxPool`, `AdaptiveMeanPool`, `GlobalMaxPool`, `GlobalMeanPool`, `MaxPool`, `MeanPool` and `LPPool` use `NNlib.PoolDims`, `NNlib.maxpool`, `NNlib.meanpool` and `NNlib.lppool` as their backend.
 
 ```@docs
 PoolDims
 maxpool
 meanpool
+lppool
 ```
 
 ## Padding

diff --git a/src/NNlib.jl b/src/NNlib.jl
@@ -67,8 +67,8 @@ include("ctc.jl")
 export ctc_loss
 
 include("pooling.jl")
-export maxpool, maxpool!, meanpool, meanpool!, 
-    ∇maxpool, ∇maxpool!, ∇meanpool, ∇meanpool!
+export maxpool, maxpool!, meanpool, meanpool!, lppool, lppool!,
+    ∇maxpool, ∇maxpool!, ∇meanpool, ∇meanpool!, ∇lppool, ∇lppool!
 
 include("padding.jl")
 export pad_constant, pad_repeat, pad_reflect, pad_zeros

diff --git a/src/impl/pooling_direct.jl b/src/impl/pooling_direct.jl
@@ -1,14 +1,14 @@
 # Pooling is so similar, we abstract over meanpooling and maxpooling, simply replacing
 # the inner loop operation and a few initialization parameters.
-for name in (:max, :mean)
+for name in (:max, :mean, :lp)
     @eval function $((Symbol("$(name)pool_direct!")))(
                     y::AbstractArray{T, 5}, x::AbstractArray{T, 5},
-                    pdims::PoolDims; alpha::T=T(1), beta::T=T(0)) where T
+                    pdims::PoolDims; alpha::T=T(1), beta::T=T(0), kwargs...) where T
         $((Symbol("$(name)pool_direct!")))(
             y, x, pdims,
             Val(kernel_size(pdims)), Val(channels_out(pdims)),
             Val(padding(pdims)), Val(dilation(pdims)), Val(stride(pdims));
-            alpha, beta)
+            alpha, beta, kwargs...)
         return y
     end
 
@@ -17,7 +17,7 @@ for name in (:max, :mean)
         pdims::PoolDims,
         # kernel size, channels out, padding, dilation, stride
         ::Val{K}, ::Val{C}, ::Val{P}, ::Val{D}, ::Val{S};
-        alpha::T=T(1), beta::T=T(0),
+        alpha::T=T(1), beta::T=T(0), kwargs...
     ) where {T, K, C, P, D, S}
         @assert beta == T(0) "beta not supported yet"
         check_dims(size(x), size(y), pdims)
@@ -41,10 +41,15 @@ for name in (:max, :mean)
             alpha = alpha / prod(K)
         end
 
+        p = if $(name != :lp) 0 else
+            !haskey(kwargs, :p) && error("lppool must pass p")
+            kwargs[:p]
+        end
+
         # Each loop, we initialize `m` to something, set that here.
         m_init = if $(name == :max)
             T <: AbstractFloat ? nextfloat(typemin(T)) : typemin(T)
-        elseif $(name == :mean)
+        elseif $(name == :mean) || $(name == :lp)
             T(0)
         else
             error("Unimplemented codegen path")
@@ -78,11 +83,17 @@ for name in (:max, :mean)
                     end
                 elseif $(name == :mean)
                     m += x[input_kw, input_kh, input_kd, c, batch_idx]
+                elseif $(name == :lp)
+                    # y = (∑ x^p)^(1/p), here to calculate (∑ x^p)
+                    m += x[input_kw, input_kh, input_kd, c, batch_idx]^p
                 else
                     error("Unimplemented codegen path")
                 end
             end
 
+            # for lppool, y = (∑ x^p)^(1/p)
+            m = $(name == :lp) ? m^(1 / p) : m
+
             y[w, h, d, c, batch_idx] = alpha * m # + beta * y[w, h, d, c, batch_idx]
             end
             end
@@ -128,12 +139,15 @@ for name in (:max, :mean)
                                 end
                             elseif $(name == :mean)
                                 m += x[input_kw, input_kh, input_kd, c, batch_idx]
+                            elseif $(name == :lp)
+                                m += x[input_kw, input_kh, input_kd, c, batch_idx]^p
                             else
                                 error("Unimplemented codegen path")
                             end
                         end
                     end
                 end
+                $(name == :lp) && (m = m^(1 / p))
                 y[w, h, d, c, batch_idx] = alpha * m # + beta * y[w, h, d, c, batch_idx]
                 end
                 end
@@ -159,7 +173,7 @@ for name in (:max, :mean)
                     dx::AbstractArray{T,5}, dy::AbstractArray{T,5},
                     y::AbstractArray{T,5}, x::AbstractArray{T,5},
                     pdims::PoolDims, ::Val{K}; # == kernel_size(pdims)
-                    alpha::T=T(1), beta::T=T(0)) where {T, K}
+                    alpha::T=T(1), beta::T=T(0), kwargs...) where {T, K}
         check_dims(size(x), size(dy), pdims)
 
         width, height, depth = input_size(pdims)
@@ -178,10 +192,15 @@ for name in (:max, :mean)
 
         # If we're doing mean pooling, we represent division by kernel size by rolling
         # it into the `alpha` multiplier.
-        if $(name == :mean)
+        if $(name == :mean) || $(name == :lp)
             alpha = alpha / prod(K)
         end
 
+        p = if $(name != :lp) 0 else
+            !haskey(kwargs, :p) && error("lppool must pass p")
+            kwargs[:p]
+        end
+
         # Start with the central region
         w_region, h_region, d_region = central_region
         @inbounds for batch_idx in 1:size(x, 5), c in 1:out_c
@@ -226,6 +245,10 @@ for name in (:max, :mean)
                 elseif $(name == :mean)
                     # Either does meanpool :(
                     dx[input_kw, input_kh, input_kd, c, batch_idx] += dy_idx * alpha
+                elseif $(name == :lp)
+                    # y = (∑ x^p)^(1/p), ∂y/∂x = x^(p-1) × y^(1-p)
+                    grad = x[input_kw, input_kh, input_kd, c, batch_idx]^(p-1) * y_idx^(1-p)
+                    dx[input_kw, input_kh, input_kd, c, batch_idx] += dy_idx * grad
                 else
                     error("Unimplemented codegen path")
                 end
@@ -286,6 +309,9 @@ for name in (:max, :mean)
                                 end
                             elseif $(name == :mean)
                                 dx[input_kw, input_kh, input_kd, c, batch_idx] += dy_idx * alpha #+ beta * dx[x_idxs...]
+                            elseif $(name == :lp)
+                                grad = x[input_kw, input_kh, input_kd, c, batch_idx]^(p-1) * y_idx^(1-p)
+                                dx[input_kw, input_kh, input_kd, c, batch_idx] += dy_idx * grad
                             else
                                 error("Unimplemented codegen path")
                             end

diff --git a/src/pooling.jl b/src/pooling.jl
@@ -8,11 +8,15 @@
 #     - maxpool!(y, x, pdims)
 #     - meanpool(x, pdims)
 #     - meanpool!(y, x, pdims)
+#     - lppool(x, pdims)
+#     - lppool!(y, x, pdims)
 #   - Pooling input backprop
 #     - ∇maxpool(dy, y, x, pdims)
 #     - ∇maxpool!(dx, dy, y, x, pdims)
 #     - ∇meanpool(dy, y, x, pdims)
 #     - ∇meanpool!(dx, dy, y, x pdims)
+#     - ∇lppool(dy, y, x, pdims)
+#     - ∇lppool!(dx, dy, y, x pdims)
 #
 #   All methods require a `PoolDims` object to define the dimensions and optional
 #   elements of the convolution (stride, dilation, etc...), which is easily constructable
@@ -26,6 +30,7 @@ for (front_name, backend) in (
         # This maps from public, front-facing name, to internal backend name
         :maxpool  => :direct,
         :meanpool => :direct,
+        :lppool => :direct,
     )
 
     # We only define 3d pooling primitives, we reshape lower down to get 1d and 2d pooling
@@ -42,6 +47,7 @@ end
 for (front_name, backend) in (
         :∇maxpool  => :direct,
         :∇meanpool => :direct,
+        :∇lppool => :direct,
     )
     @eval begin
         function $(Symbol("$(front_name)!"))(
@@ -57,7 +63,7 @@ end
 # Our strategy for pooling is to reshape to an array with three spatial dimensions, which
 # makes things MUCH EASIER for us on the backend side, and is in general pretty fast,
 # since we can specialize on sizes.
-for front_name in (:maxpool, :meanpool)
+for front_name in (:maxpool, :meanpool, :lppool)
     for backend in (Symbol(), :_direct)
         for N in (3, 4)
             @eval begin
@@ -103,7 +109,7 @@ end
 # Finally, let's generate auto-allocating versions of all our functions, for all backends:
 for backend in (Symbol(), :_direct, :_nnpack)
     # First make auto-allocating versions of the basic pooling calls:
-    for name in (:maxpool, :meanpool)
+    for name in (:maxpool, :meanpool, :lppool)
         @eval begin
             function $(Symbol("$(name)$(backend)"))(
                             x::AbstractArray{xT,N},
@@ -141,11 +147,19 @@ expand(N, i::Integer) = ntuple(_ -> i, N)
 
 
 """
-    maxpool(x, k::NTuple; pad=0, stride=k)
+    maxpool(x, k::NTuple{N, Integer}; pad=0, stride=k)
 
 Perform max pool operation with window size `k` on input tensor `x`.
+
+* `x` and `k`: Usually, ndim(x) ∈ [3, 5], length(k) ∈ [1, 3], s.t. ndim(x) == length(k) + 2
+* `pad`: See [`pad_zeros`](@ref) for details.
+* `stride`: Stride for each spatial axis. `k` as default if not present.
 """
 function maxpool(x, k::NTuple{N, Integer}; pad=0, stride=k) where N
+    ndims(x) == length(k) + 2 || error("maxpool expects ndims(x) == length(k)+2,
+                                        dimension of x is $(ndims(x)),
+                                        length of k need $(ndims(x) - 2),
+                                        but now it's $(length(k))")
     pad = expand(Val(N), pad)
     stride = expand(Val(N), stride)
     pdims = PoolDims(x, k; padding=pad, stride=stride)
@@ -154,19 +168,69 @@ end
 
 
 """
-    meanpool(x, k::NTuple; pad=0, stride=k)
+    meanpool(x, k::NTuple{N, Integer}; pad=0, stride=k)
 
 Perform mean pool operation with window size `k` on input tensor `x`.
+
+* `x` and `k`: Usually, ndim(x) ∈ [3, 5], length(k) ∈ [1, 3], s.t. ndim(x) == length(k) + 2
+* `pad`: See [`pad_zeros`](@ref) for details.
+* `stride`: Stride for each spatial axis. `k` as default if not present.
 """
 function meanpool(x, k::NTuple{N, Integer}; pad=0, stride=k) where N
+    ndims(x) == length(k) + 2 || error("meanpool expects ndims(x) == length(k)+2,
+                                        dimension of x is $(ndims(x)),
+                                        length of k need $(ndims(x) - 2),
+                                        but now it's $(length(k))")
     pad = expand(Val(N), pad)
     stride = expand(Val(N), stride)
     pdims = PoolDims(x, k; padding=pad, stride=stride)
     return meanpool(x, pdims)
 end
 
 
-for pool in [:maxpool, :meanpool]
+"""
+    lppool(x, p::Number, k::NTuple{N, Integer}; pad=0, stride=k)
+
+Perform Lp pool operation with value of the Lp norm `p` and `window size `k` on input tensor `x`.
+
+* `x` and `k`: Usually, ndim(x) ∈ [3, 5], length(k) ∈ [1, 3], s.t. ndim(x) == length(k) + 2
+* `pad`: See [`pad_zeros`](@ref) for details.
+* `stride`: Stride for each spatial axis. `k` as default if not present.
+
+For each element `x` in (k × k) window, lppool computes `(∑ x^p)^(1 / p)` as output.
+
+* When p = 1, lppool(x, p, k) ./ prod(k) ≈ meanpool(x, k)
+* When p = 2, lppool(x, p, k).^2 ./ prod(k) ≈ meanpool(x.^2, k)
+
+!!! warning
+
+    Theoretically, when `p -> ∞`, lppool(x, p, k) ≈ maxpool(x, k).
+    But it's not correct in julia. Given a normal valuable `x`,
+    ```jldoctest
+    julia> x = 10
+    10
+
+    julia> ans^Inf
+    Inf
+
+    julia> ans^(1/Inf)
+    1.0
+    ```
+    Please use `meanpool` and `maxpool` directly when needed.
+"""
+function lppool(x, p::Number, k::NTuple{N, Integer}; pad=0, stride=k) where N
+    ndims(x) == length(k) + 2 || error("lppool expects ndims(x) == length(k)+2,
+                                        dimension of x is $(ndims(x)),
+                                        length of k need $(ndims(x) - 2),
+                                        but now it's $(length(k))")
+    pad = expand(Val(N), pad)
+    stride = expand(Val(N), stride)
+    pdims = PoolDims(x, k; padding=pad, stride=stride)
+    return lppool(x, pdims; p=p)
+end
+
+
+for pool in [:maxpool, :meanpool, :lppool]
     ∇pool = Symbol(:∇, pool)
     pullback = Symbol(pool, :_pullback)
     @eval function rrule(::typeof($pool), x, pdims::PoolDims; kw...)

diff --git a/test/perf/perf_report.jl b/test/perf/perf_report.jl
@@ -93,6 +93,7 @@ for rank in (2,),
     for (pool, ∇pool, name) in (
             (NNlib.maxpool!, NNlib.∇maxpool!, "maxpool"),
             (NNlib.meanpool!, NNlib.∇meanpool!, "meanpool"),
+            (NNlib.lppool!, NNlib.∇lppool!, "lppool"),
         )
 
         t_fwd  = @benchmark $(pool)( $y, $x, $pdims)