refactor

zasdfgbnm · zasdfgbnm · commit 87fee1daf1ae · 2022-11-11T12:38:15.000-08:00
diff --git a/torch/csrc/jit/codegen/cuda/arith.cpp b/torch/csrc/jit/codegen/cuda/arith.cpp
@@ -470,7 +470,7 @@ TensorView* select(TensorView* tv, int dim, Int* index) {
   auto td = IrBuilder::create<TensorDomain>(
       new_root, TensorDomain::getContiguousContiguity(new_root));
   auto out = IrBuilder::create<TensorView>(td, *tv->getDataType());
-  IrBuilder::create<SelectOp>(out, tv, dim, index);
+  IrBuilder::create<SelectOp>(out, tv, dom[dim], index);
   return out;
 }
 
diff --git a/torch/csrc/jit/codegen/cuda/codegen.cpp b/torch/csrc/jit/codegen/cuda/codegen.cpp
@@ -1038,10 +1038,6 @@ class CudaKernelGenerator : private OptOutConstDispatch {
     }
   }
 
-  void handle(const SelectOp* sop) final {
-    indent() << gen(sop->output(0)) << " = " << gen(sop->input(0)) << ";\n";
-  }
-
   std::string genArchString(MmaOptions::MacroType macro) {
     std::stringstream ss;
     if (isVolta(macro)) {
diff --git a/torch/csrc/jit/codegen/cuda/index_compute.cpp b/torch/csrc/jit/codegen/cuda/index_compute.cpp
@@ -1460,7 +1460,8 @@ Val* hoistProducerIndex(
 std::vector<Val*> Index::getGlobalProducerStridedIndices(
     TensorView* producer_tv,
     const TensorView* consumer_tv,
-    const std::vector<kir::ForLoop*>& loops) {
+    const std::vector<kir::ForLoop*>& loops,
+    const std::unordered_map<IterDomain*, Val*>& override_index) {
   FUSER_PERF_SCOPE("GpuLower::Lower::getGlobalProducerIndex");
 
   // Replay producer to look like consumer so we can index on producer since
@@ -1536,13 +1537,6 @@ std::vector<Val*> Index::getGlobalProducerStridedIndices(
     }
   }
 
-  IterDomain* selected_id = nullptr;
-  Val* selected_index = nullptr;
-  if (auto sop = dynamic_cast<SelectOp*>(consumer_tv->definition())) {
-    selected_id = TensorDomain::noReductions(root_dom)[sop->getDim()];
-    selected_index = sop->input(1);
-  }
-
   TORCH_INTERNAL_ASSERT(
       root_dom.size() == producer_tv->domain()->contiguity().size());
   Val* cur_contig_stride = GpuLower::current()->kernel()->oneVal();
@@ -1582,13 +1576,15 @@ std::vector<Val*> Index::getGlobalProducerStridedIndices(
     }
 
     Val* root_ind = nullptr;
-    if (producer_indexing.indexMap().find(root_dom[i]) !=
+    auto override_it = override_index.find(root_dom[i]);
+    if (override_it != override_index.end()) {
+      root_ind = override_it->second;
+    } else if (
+        producer_indexing.indexMap().find(root_dom[i]) !=
         producer_indexing.indexMap().end()) {
       root_ind = producer_indexing.indexMap().at(root_dom[i]);
     } else if (root_dom[i]->isBroadcast()) {
       root_ind = GpuLower::current()->kernel()->zeroVal();
-    } else if (root_dom[i] == selected_id) {
-      root_ind = selected_index;
     }
 
     TORCH_INTERNAL_ASSERT(
@@ -1612,7 +1608,7 @@ std::vector<Val*> Index::getGlobalProducerStridedIndices(
         loops,
         root_ind);
 
-    if (root_dom[i] != selected_id) {
+    if (!override_index.count(root_dom[i])) {
       root_ind =
           getProducerIndexWithHalo(producer_tv, i, root_ind, consumer_tv);
     }
@@ -1686,7 +1682,8 @@ std::unordered_map<IterDomain*, IterDomain*> mapAllProducerDomainsToConsumer(
 std::vector<Val*> Index::getNonGlobalProducerStridedIndices(
     TensorView* producer_tv,
     const TensorView* consumer_tv,
-    const std::vector<kir::ForLoop*>& loops) {
+    const std::vector<kir::ForLoop*>& loops,
+    const std::unordered_map<IterDomain*, Val*>& override_index) {
   const auto gpu_lower = GpuLower::current();
 
   // Replay producer to look like consumer so we can index on producer since our
@@ -1794,13 +1791,6 @@ std::vector<Val*> Index::getNonGlobalProducerStridedIndices(
   // and use them.
   auto root_dom = producer_tv->getMaybeRFactorDomain();
 
-  IterDomain* selected_id = nullptr;
-  Val* selected_index = nullptr;
-  if (auto sop = dynamic_cast<SelectOp*>(consumer_tv->definition())) {
-    selected_id = TensorDomain::noReductions(root_dom)[sop->getDim()];
-    selected_index = sop->input(1);
-  }
-
   // Figure out which root axes we don't need to index
   std::unordered_set<IterDomain*> skip_indexing;
 
@@ -1834,9 +1824,10 @@ std::vector<Val*> Index::getNonGlobalProducerStridedIndices(
         " id: ",
         root_dom[i]->toString());
 
+    auto override_it = override_index.find(root_dom[i]);
     auto root_ind_i =
-        (selected_id == root_dom[i] ? selected_index
-                                    : index_map.at(root_dom[i]));
+        (override_it != override_index.end() ? override_it->second
+                                             : index_map.at(root_dom[i]));
 
     // index hoist must be done before the adjustments for halo
     root_ind_i = hoistProducerIndex(
@@ -1850,7 +1841,7 @@ std::vector<Val*> Index::getNonGlobalProducerStridedIndices(
         loops,
         root_ind_i);
 
-    if (root_dom[i] != selected_id) {
+    if (override_index.count(root_dom[i])) {
       root_ind_i =
           getProducerIndexWithHalo(producer_tv, i, root_ind_i, consumer_tv);
     }
@@ -2237,7 +2228,8 @@ std::vector<Val*> Index::getNonGlobalConsumerStridedIndices(
 std::vector<Val*> Index::getProducerStridedIndices(
     TensorView* producer,
     const TensorView* consumer,
-    const std::vector<kir::ForLoop*>& loops) {
+    const std::vector<kir::ForLoop*>& loops,
+    const std::unordered_map<IterDomain*, Val*>& override_index) {
   FUSER_PERF_SCOPE("GpuLower::Lower::Index::getProducerStridedIndices");
   if (producer->domain()->noReductions().size() == 0) {
     return std::vector<Val*>(
@@ -2247,11 +2239,11 @@ std::vector<Val*> Index::getProducerStridedIndices(
 
   std::vector<Val*> strided_indices;
   if (producer->getMemoryType() == MemoryType::Global) {
-    strided_indices =
-        getGlobalProducerStridedIndices(producer, consumer, loops);
+    strided_indices = getGlobalProducerStridedIndices(
+        producer, consumer, loops, override_index);
   } else {
-    strided_indices =
-        getNonGlobalProducerStridedIndices(producer, consumer, loops);
+    strided_indices = getNonGlobalProducerStridedIndices(
+        producer, consumer, loops, override_index);
   }
 
   TORCH_INTERNAL_ASSERT(
@@ -2267,8 +2259,10 @@ std::vector<Val*> Index::getProducerStridedIndices(
 kir::TensorIndex* Index::getProducerIndex(
     TensorView* producer,
     const TensorView* consumer,
-    const std::vector<kir::ForLoop*>& loops) {
-  auto strided_indices = getProducerStridedIndices(producer, consumer, loops);
+    const std::vector<kir::ForLoop*>& loops,
+    const std::unordered_map<IterDomain*, Val*>& override_index) {
+  auto strided_indices =
+      getProducerStridedIndices(producer, consumer, loops, override_index);
   return SimplifyingIrBuilder::create<kir::TensorIndex>(
       producer, strided_indices);
 }
diff --git a/torch/csrc/jit/codegen/cuda/index_compute.h b/torch/csrc/jit/codegen/cuda/index_compute.h
@@ -309,7 +309,8 @@ class Index {
   static std::vector<Val*> getNonGlobalProducerStridedIndices(
       TensorView* producer,
       const TensorView* consumer,
-      const std::vector<kir::ForLoop*>& loops);
+      const std::vector<kir::ForLoop*>& loops,
+      const std::unordered_map<IterDomain*, Val*>& override_index = {});
 
   // Consumer indexing if it's in shared or local memory
   static std::vector<Val*> getNonGlobalConsumerStridedIndices(
@@ -320,7 +321,8 @@ class Index {
   static std::vector<Val*> getGlobalProducerStridedIndices(
       TensorView* producer,
       const TensorView* consumer,
-      const std::vector<kir::ForLoop*>& loops);
+      const std::vector<kir::ForLoop*>& loops,
+      const std::unordered_map<IterDomain*, Val*>& override_index = {});
 
   // Consumer indexing if it's in global memory
   static std::vector<Val*> getGlobalConsumerStridedIndices(
@@ -344,7 +346,8 @@ class Index {
   static kir::TensorIndex* getProducerIndex(
       TensorView* producer,
       const TensorView* consumer,
-      const std::vector<kir::ForLoop*>& loops);
+      const std::vector<kir::ForLoop*>& loops,
+      const std::unordered_map<IterDomain*, Val*>& override_index = {});
 
   // Consumer index dispatch
   static kir::TensorIndex* getConsumerIndex(
@@ -358,7 +361,8 @@ class Index {
   static std::vector<Val*> getProducerStridedIndices(
       TensorView* producer,
       const TensorView* consumer,
-      const std::vector<kir::ForLoop*>& loops);
+      const std::vector<kir::ForLoop*>& loops,
+      const std::unordered_map<IterDomain*, Val*>& override_index = {});
 
   //! Returns a vector of strided indices mapped onto the (rfactor)
   //! root domain of a consumer tensor. The size of the returned
diff --git a/torch/csrc/jit/codegen/cuda/ir_internal_nodes.h b/torch/csrc/jit/codegen/cuda/ir_internal_nodes.h
@@ -55,20 +55,29 @@ class TORCH_CUDA_CU_API FullOp : public Expr {
 
 class TORCH_CUDA_CU_API SelectOp : public Expr {
  public:
-  SelectOp(IrBuilderPasskey, Val* out, Val* in, int dim, Val* index);
+  SelectOp(
+      IrBuilderPasskey,
+      Val* out,
+      Val* in,
+      IterDomain* select_id,
+      Val* index);
 
   SelectOp(const SelectOp* src, IrCloner* ir_cloner);
 
   Expr* shallowCopy() const override;
 
   bool sameAs(const Statement* other) const override;
 
-  int getDim() const {
-    return dim_;
+  std::unordered_map<IterDomain*, Val*> getIndexOverridingMap() const {
+    return {{select_id_, input(1)}};
+  }
+
+  IterDomain* getSelectAxis() const {
+    return select_id_;
   }
 
  private:
-  int dim_;
+  IterDomain* select_id_;
 };
 
 class TORCH_CUDA_CU_API ARangeOp : public Expr {
diff --git a/torch/csrc/jit/codegen/cuda/ir_iostream.cpp b/torch/csrc/jit/codegen/cuda/ir_iostream.cpp
@@ -506,7 +506,8 @@ void IrPrinter::handle(const RNGOp* rop) {
 
 void IrPrinter::handle(const SelectOp* sop) {
   indent() << sop->output(0) << "\n";
-  indent() << "   = select( " << sop->input(0) << ", dim = " << sop->getDim()
+  indent() << "   = select( " << sop->input(0)
+           << ", axis = " << sop->getSelectAxis()
            << ", index = " << sop->input(1) << " )\n";
 }
 
diff --git a/torch/csrc/jit/codegen/cuda/ir_nodes.cpp b/torch/csrc/jit/codegen/cuda/ir_nodes.cpp
@@ -227,20 +227,20 @@ SelectOp::SelectOp(
     IrBuilderPasskey passkey,
     Val* out,
     Val* in,
-    int dim,
+    IterDomain* select_id,
     Val* index)
-    : Expr(passkey, ExprType::SelectOp), dim_(dim) {
+    : Expr(passkey, ExprType::SelectOp), select_id_(select_id) {
   addInput(in);
   addInput(index);
   addOutput(out);
 }
 
 SelectOp::SelectOp(const SelectOp* src, IrCloner* ir_cloner)
-    : Expr(src, ir_cloner), dim_(src->dim_) {}
+    : Expr(src, ir_cloner), select_id_(ir_cloner->clone(src->select_id_)) {}
 
 Expr* SelectOp::shallowCopy() const {
   auto result =
-      IrBuilder::create<SelectOp>(output(0), input(0), dim_, input(1));
+      IrBuilder::create<SelectOp>(output(0), input(0), select_id_, input(1));
   result->copyPredicatesFrom(this);
   return result;
 }
@@ -253,7 +253,7 @@ bool SelectOp::sameAs(const Statement* other) const {
     return false;
   }
   const auto other_op = other->as<SelectOp>();
-  if (dim_ != other_op->dim_) {
+  if (!select_id_->sameAs(other_op->select_id_)) {
     return false;
   }
   return Expr::sameAs(other);
diff --git a/torch/csrc/jit/codegen/cuda/ir_utils.cpp b/torch/csrc/jit/codegen/cuda/ir_utils.cpp
@@ -276,7 +276,11 @@ struct SubstituteInExpr : public OptInDispatch {
         ? substitute_
         : select_expr->output(0);
     expr_ = IrBuilder::create<SelectOp>(
-        select_expr->container(), out, input, select_expr->getDim(), index);
+        select_expr->container(),
+        out,
+        input,
+        select_expr->getSelectAxis(),
+        index);
   }
 
   void handle(RNGOp* rng_expr) final {
diff --git a/torch/csrc/jit/codegen/cuda/lower_index.cpp b/torch/csrc/jit/codegen/cuda/lower_index.cpp
@@ -13,10 +13,14 @@ namespace jit {
 namespace fuser {
 namespace cuda {
 
-Val* IndexLowering::lowerSrcIndex(Val* src, Val* dst) const {
+Val* IndexLowering::lowerSrcIndex(
+    Val* src,
+    Val* dst,
+    const std::unordered_map<IterDomain*, Val*>& override_index) const {
   if (auto tv = dynamic_cast<TensorView*>(src)) {
     TORCH_INTERNAL_ASSERT(dst->isA<TensorView>());
-    return Index::getProducerIndex(tv, dst->as<TensorView>(), for_loops_);
+    return Index::getProducerIndex(
+        tv, dst->as<TensorView>(), for_loops_, override_index);
   } else {
     return src;
   }
@@ -193,10 +197,10 @@ void IndexLowering::handle(const TernaryOp* top) {
 }
 
 void IndexLowering::handle(const SelectOp* sop) {
-  const auto input = lowerSrcIndex(sop->input(0), sop->output(0));
+  const auto input = lowerSrcIndex(
+      sop->input(0), sop->output(0), sop->getIndexOverridingMap());
   const auto out = lowerDstIndex(sop->output(0));
-  pushBack(
-      IrBuilder::create<SelectOp>(out, input, sop->getDim(), sop->input(1)));
+  pushBack(IrBuilder::create<UnaryOp>(UnaryOpType::Set, out, input));
   GpuLower::current()->propagateExprInfo(sop, back());
 }
 
diff --git a/torch/csrc/jit/codegen/cuda/lower_index.h b/torch/csrc/jit/codegen/cuda/lower_index.h
@@ -66,7 +66,10 @@ class TORCH_CUDA_CU_API IndexLowering : private OptOutConstDispatch {
 
   void generate(const std::vector<Expr*>& exprs);
 
-  Val* lowerSrcIndex(Val* val, Val* dst) const;
+  Val* lowerSrcIndex(
+      Val* val,
+      Val* dst,
+      const std::unordered_map<IterDomain*, Val*>& override_index = {}) const;
 
   Val* lowerDstIndex(Val* dst) const;
 
diff --git a/torch/csrc/jit/codegen/cuda/mutator.cpp b/torch/csrc/jit/codegen/cuda/mutator.cpp
@@ -141,13 +141,17 @@ void OptOutMutator::mutate(SelectOp* sop) {
   Val* out = maybeMutated(sop->output(0));
   Val* in = maybeMutated(sop->input(0));
   Val* index = maybeMutated(sop->input(1));
+  IterDomain* select_axis =
+      maybeMutated(sop->getSelectAxis())->as<IterDomain>();
 
-  if (out->sameAs(sop->output(0))) {
+  if (out->sameAs(sop->output(0)) && in->sameAs(sop->output(0)) &&
+      index->sameAs(sop->output(1)) &&
+      select_axis->sameAs(sop->getSelectAxis())) {
     return;
   }
   auto container = sop->container();
   container->removeExpr(sop);
-  IrBuilder::create<SelectOp>(container, out, in, sop->getDim(), index);
+  IrBuilder::create<SelectOp>(container, out, in, select_axis, index);
 }
 
 void OptOutMutator::mutate(ARangeOp* aop) {
diff --git a/torch/csrc/jit/codegen/cuda/root_domain_map.cpp b/torch/csrc/jit/codegen/cuda/root_domain_map.cpp
@@ -88,9 +88,10 @@ std::unordered_map<IterDomain*, IterDomain*> PairwiseRootDomainMap::map(
   if (SqueezeOp* sop = dynamic_cast<SqueezeOp*>(consumer_tv_->definition())) {
     squeeze_flags = sop->getSqueezeDimFlags();
   }
-  int selected_dim = -1;
+
+  IterDomain* selected_id = nullptr;
   if (SelectOp* sop = dynamic_cast<SelectOp*>(consumer_tv_->definition())) {
-    selected_dim = sop->getDim();
+    selected_id = sop->getSelectAxis();
   }
 
   std::unordered_map<IterDomain*, IterDomain*> dom_map;
@@ -99,15 +100,16 @@ std::unordered_map<IterDomain*, IterDomain*> PairwiseRootDomainMap::map(
   const auto& consumer_root = consumer->getRootDomain();
   size_t itc = 0, itp = 0;
   while (itc < consumer_root.size() && itp < producer_root.size()) {
+    IterDomain* producer_id = producer_root[itp];
+    IterDomain* consumer_id = consumer_root[itc];
+
     // When the producer ID is the dim of a SelectOp, there is no
     // mapping for it.
-    if (itp == selected_dim) {
+    if (producer_id == selected_id) {
       itp++;
+      continue;
     }
 
-    IterDomain* producer_id = producer_root[itp];
-    IterDomain* consumer_id = consumer_root[itc];
-
     // When the consumer ID is a new broadcast domain, there is no
     // mapping for it.
     if (!broadcast_flags.empty() && broadcast_flags.at(itc)) {
diff --git a/torch/csrc/jit/codegen/cuda/scheduler/pointwise_utils.cpp b/torch/csrc/jit/codegen/cuda/scheduler/pointwise_utils.cpp
@@ -10,10 +10,7 @@ namespace pointwise_utils {
 DomainMap::DomainMap(Fusion* fusion) : fusion_(fusion), ca_map_(fusion) {
   view_tvs_ = scheduler_utils::getViewTVs(fusion);
   for (auto select : ir_utils::getSelectOps(fusion)) {
-    TensorView* input = select->input(0)->as<TensorView>();
-    auto input_root =
-        TensorDomain::noReductions(input->getMaybeRFactorDomain());
-    select_ids_.emplace(input_root[select->getDim()]);
+    select_ids_.emplace(select->getSelectAxis());
   }
 }
 
diff --git a/torch/csrc/jit/codegen/cuda/scheduler/registry.cpp b/torch/csrc/jit/codegen/cuda/scheduler/registry.cpp

Original file line number	Diff line number	Diff line change
`@@ -470,7 +470,7 @@ TensorView* select(TensorView* tv, int dim, Int* index) {`
`470`	`470`	`auto td = IrBuilder::create<TensorDomain>(`
`471`	`471`	`new_root, TensorDomain::getContiguousContiguity(new_root));`
`472`	`472`	`auto out = IrBuilder::create<TensorView>(td, *tv->getDataType());`
`473`		`- IrBuilder::create<SelectOp>(out, tv, dim, index);`
	`473`	`+ IrBuilder::create<SelectOp>(out, tv, dom[dim], index);`
`474`	`474`	`return out;`
`475`	`475`	`}`
`476`	`476`
Original file line number	Diff line number	Diff line change
`@@ -1038,10 +1038,6 @@ class CudaKernelGenerator : private OptOutConstDispatch {`
`1038`	`1038`	`}`
`1039`	`1039`	`}`
`1040`	`1040`
`1041`		`- void handle(const SelectOp* sop) final {`
`1042`		`- indent() << gen(sop->output(0)) << " = " << gen(sop->input(0)) << ";\n";`
`1043`		`- }`
`1044`		`-`
`1045`	`1041`	`std::string genArchString(MmaOptions::MacroType macro) {`
`1046`	`1042`	`std::stringstream ss;`
`1047`	`1043`	`if (isVolta(macro)) {`
Original file line number	Diff line number	Diff line change
`@@ -506,7 +506,8 @@ void IrPrinter::handle(const RNGOp* rop) {`
`506`	`506`
`507`	`507`	`void IrPrinter::handle(const SelectOp* sop) {`
`508`	`508`	`indent() << sop->output(0) << "\n";`
`509`		`- indent() << " = select( " << sop->input(0) << ", dim = " << sop->getDim()`
	`509`	`+ indent() << " = select( " << sop->input(0)`
	`510`	`+ << ", axis = " << sop->getSelectAxis()`
`510`	`511`	`<< ", index = " << sop->input(1) << " )\n";`
`511`	`512`	`}`
`512`	`513`