celeritas-project · sethrj · May 26, 2023 · May 16, 2023 · May 24, 2023 · May 24, 2023
diff --git a/app/CMakeLists.txt b/app/CMakeLists.txt
@@ -221,6 +221,7 @@ if(CELERITAS_BUILD_DEMOS)
     demo-loop/demo-loop.cc
     demo-loop/RunnerInputIO.json.cc
     demo-loop/Runner.cc
+    demo-loop/RunnerOutput.cc
     demo-loop/Transporter.cc
   )
 
@@ -306,8 +307,15 @@ if(CELERITAS_BUILD_DEMOS)
       "CELER_LOG=debug"
       "CELER_DISABLE_DEVICE=1"
       "CELER_DISABLE_PARALLEL=1"
-      ${_omp_env}
     )
+    if(CELERITAS_USE_OpenMP)
+      # TODO: update when OpenMP nested parallelism is enabled
+      if(CELERITAS_USE_ROOT)
+        list(APPEND _env "OMP_NUM_THREADS=1")
+      else()
+        list(APPEND _env "OMP_NUM_THREADS=4")
+      endif()
+    endif()
     if(NOT CELERITAS_CORE_GEO STREQUAL "VecGeom")
       list(APPEND _env "CELER_DISABLE_VECGEOM=1")
     endif()

diff --git a/app/demo-loop/Runner.cc b/app/demo-loop/Runner.cc
@@ -81,7 +81,7 @@ Runner::Runner(RunnerInput const& inp, SPOutputRegistry output)
     this->build_diagnostics(inp);
     this->build_step_collectors(inp);
     this->build_transporter_input(inp);
-    this->build_primaries(inp);
+    this->build_events(inp);
     use_device_ = inp.use_device;
 
     if (root_manager_)
@@ -90,7 +90,8 @@ Runner::Runner(RunnerInput const& inp, SPOutputRegistry output)
         write_to_root(*core_params_, root_manager_.get());
     }
 
-    CELER_ENSURE(core_params_);
+    CELER_ASSERT(core_params_);
+    transporters_.resize(this->num_streams());
 }
 
 //---------------------------------------------------------------------------//
@@ -99,33 +100,36 @@ Runner::Runner(RunnerInput const& inp, SPOutputRegistry output)
  *
  * This will partition the input primaries among all the streams.
  */
-auto Runner::operator()(StreamId stream_id) const -> RunnerResult
+auto Runner::operator()(RunStreamEvent ids) -> RunnerResult
 {
-    CELER_EXPECT(stream_id < this->num_streams());
+    CELER_EXPECT(ids.stream < this->num_streams());
+    CELER_EXPECT(ids.event < this->num_events());
 
-    auto transport = [this, stream_id]() -> std::unique_ptr<TransporterBase> {
-        // Thread-local transporter input
-        TransporterInput local_trans_inp = *transporter_input_;
-        local_trans_inp.stream_id = stream_id;
+    auto& transport = transporters_[ids.stream.get()];
+    if (!transport)
+    {
+        transport = [this, ids]() -> std::unique_ptr<TransporterBase> {
+            // Thread-local transporter input
+            TransporterInput local_trans_inp = *transporter_input_;
+            local_trans_inp.stream_id = ids.stream;
 
-        if (use_device_)
-        {
-            CELER_VALIDATE(celeritas::device(),
-                           << "CUDA device is unavailable but GPU run was "
-                              "requested");
-            return std::make_unique<Transporter<MemSpace::device>>(
-                std::move(local_trans_inp));
-        }
-        else
-        {
-            return std::make_unique<Transporter<MemSpace::host>>(
-                std::move(local_trans_inp));
-        }
-    }();
+            if (use_device_)
+            {
+                CELER_VALIDATE(celeritas::device(),
+                               << "CUDA device is unavailable but GPU run was "
+                                  "requested");
+                return std::make_unique<Transporter<MemSpace::device>>(
+                    std::move(local_trans_inp));
+            }
+            else
+            {
+                return std::make_unique<Transporter<MemSpace::host>>(
+                    std::move(local_trans_inp));
+            }
+        }();
+    }
 
-    // TODO: partition primaries among streams
-    CELER_ASSERT(stream_id == StreamId{0});
-    return (*transport)(make_span(primaries_));
+    return (*transport)(make_span(events_[ids.event.get()]));
 }
 
 //---------------------------------------------------------------------------//
@@ -137,6 +141,15 @@ StreamId::size_type Runner::num_streams() const
     return core_params_->max_streams();
 }
 
+//---------------------------------------------------------------------------//
+/*!
+ * Total number of events.
+ */
+size_type Runner::num_events() const
+{
+    return events_.size();
+}
+
 //---------------------------------------------------------------------------//
 void Runner::setup_globals(RunnerInput const& inp) const
 {
@@ -300,6 +313,12 @@ void Runner::build_core_params(RunnerInput const& inp,
         return std::make_shared<TrackInitParams>(std::move(input));
     }();
 
+    // Store the number of simultaneous threads/tasks per process
+    params.max_streams = get_num_streams();
+    CELER_VALIDATE(inp.mctruth_filename.empty() || params.max_streams == 1,
+                   << "MC truth output is only supported with a single "
+                      "stream.");
+
     core_params_ = std::make_shared<CoreParams>(std::move(params));
 }
 
@@ -323,11 +342,11 @@ void Runner::build_transporter_input(RunnerInput const& inp)
 
 //---------------------------------------------------------------------------//
 /*!
- * Construct on all threads from a JSON input and shared output manager.
+ * Read events from a HepMC3 file or build using a primary generator.
  */
-void Runner::build_primaries(RunnerInput const& inp)
+void Runner::build_events(RunnerInput const& inp)
 {
-    ScopedMem record_mem("Runner.build_primaries");
+    ScopedMem record_mem("Runner.build_events");
     if (inp.primary_gen_options)
     {
         std::mt19937 rng;
@@ -336,7 +355,7 @@ void Runner::build_primaries(RunnerInput const& inp)
         auto event = generate_event(rng);
         while (!event.empty())
         {
-            primaries_.insert(primaries_.end(), event.begin(), event.end());
+            events_.push_back(event);
             event = generate_event(rng);
         }
     }
@@ -347,7 +366,7 @@ void Runner::build_primaries(RunnerInput const& inp)
         auto event = read_event();
         while (!event.empty())
         {
-            primaries_.insert(primaries_.end(), event.begin(), event.end());
+            events_.push_back(event);
             event = read_event();
         }
     }
@@ -429,5 +448,31 @@ void Runner::build_diagnostics(RunnerInput const& inp)
     }
 }
 
+//---------------------------------------------------------------------------//
+/*!
+ * Get the number of streams from the OMP_NUM_THREADS environment variable.
+ *
+ * The value of OMP_NUM_THREADS should be a list of positive integers, each of
+ * which sets the number of threads for the parallel region at the
+ * corresponding nested level. The number of streams is set to the first value
+ * in the list.
+ *
+ * \note For a multithreaded CPU run, if OMP_NUM_THREADS is set to a single
+ * value, the number of threads for each nested parallel region will be set to
+ * that value.
+ */
+int get_num_streams()
+{
+    std::string const& nt_str = celeritas::getenv("OMP_NUM_THREADS");
+    if (!nt_str.empty())
+    {
+        auto num_threads = std::stoi(nt_str);
+        CELER_VALIDATE(num_threads > 0,
+                       << "nonpositive num_streams=" << num_threads);
+        return num_threads;
+    }
+    return 1;
+}
+
 //---------------------------------------------------------------------------//
 }  // namespace demo_loop
diff --git a/app/demo-loop/Runner.hh b/app/demo-loop/Runner.hh
@@ -8,15 +8,15 @@
 #pragma once
 
 #include <memory>
-#include <string>
-#include <unordered_map>
 #include <utility>
 #include <vector>
 
 #include "corecel/Types.hh"
 #include "corecel/sys/ThreadId.hh"
 #include "celeritas/phys/Primary.hh"
 
+#include "Transporter.hh"
+
 namespace celeritas
 {
 class CoreParams;
@@ -29,47 +29,23 @@ namespace demo_loop
 {
 //---------------------------------------------------------------------------//
 struct RunnerInput;
-struct TransporterInput;
 
 //---------------------------------------------------------------------------//
 /*!
- * Simulation timing results.
- *
- * TODO: maybe a timer diagnostic class could help out here?
- * or another OutputRegistry.
- */
-struct RunTimingResult
-{
-    using real_type = celeritas::real_type;
-    using VecReal = std::vector<real_type>;
-    using MapStrReal = std::unordered_map<std::string, real_type>;
-
-    VecReal steps;  //!< Real time per step
-    real_type total{};  //!< Total simulation time
-    real_type setup{};  //!< One-time initialization cost
-    MapStrReal actions{};  //!< Accumulated action timing
-};
-
-//---------------------------------------------------------------------------//
-/*!
- * Tallied result and timing from transporting a set of primaries.
- *
- * TODO: these should be migrated to OutputInterface classes.
+ * Results from transporting all events.
  */
-struct RunnerResult
+struct SimulationResult
 {
     //!@{
     //! \name Type aliases
-    using size_type = celeritas::size_type;
-    using VecCount = std::vector<size_type>;
+    using real_type = celeritas::real_type;
     //!@}
 
     //// DATA ////
 
-    VecCount initializers;  //!< Num starting track initializers
-    VecCount active;  //!< Num tracks active at beginning of step
-    VecCount alive;  //!< Num living tracks at end of step
-    RunTimingResult time;  //!< Timing information
+    real_type total_time{};  //!< Total simulation time
+    real_type setup_time{};  //!< One-time initialization cost
+    std::vector<TransporterResult> events;  //< Results tallied for each event
 };
 
 //---------------------------------------------------------------------------//
@@ -84,32 +60,51 @@ class Runner
   public:
     //!@{
     //! \name Type aliases
+    using EventId = celeritas::EventId;
     using StreamId = celeritas::StreamId;
+    using size_type = celeritas::size_type;
     using Input = RunnerInput;
+    using RunnerResult = TransporterResult;
     using SPOutputRegistry = std::shared_ptr<celeritas::OutputRegistry>;
     //!@}
 
+    //! ID of the stream and event to be run
+    struct RunStreamEvent
+    {
+        StreamId stream{};
+        EventId event{};
+    };
+
   public:
     // Construct on all threads from a JSON input and shared output manager
     Runner(RunnerInput const& inp, SPOutputRegistry output);
 
     // Run on a single stream/thread, returning the transport result
-    RunnerResult operator()(StreamId s) const;
+    RunnerResult operator()(RunStreamEvent);
 
     // Number of streams supported
     StreamId::size_type num_streams() const;
 
+    // Total number of events
+    size_type num_events() const;
+
   private:
+    //// TYPES ////
+
+    using UPTransporterBase = std::unique_ptr<TransporterBase>;
+    using VecEvent = std::vector<std::vector<celeritas::Primary>>;
+
     //// DATA ////
 
     std::shared_ptr<celeritas::CoreParams> core_params_;
     std::shared_ptr<celeritas::RootFileManager> root_manager_;
     std::shared_ptr<celeritas::StepCollector> step_collector_;
 
-    // Transporter inputs
+    // Transporter inputs and stream-local transporters
     bool use_device_{};
     std::shared_ptr<TransporterInput> transporter_input_;
-    std::vector<celeritas::Primary> primaries_;
+    VecEvent events_;
+    std::vector<UPTransporterBase> transporters_;
 
     //// HELPER FUNCTIONS ////
 
@@ -118,8 +113,14 @@ class Runner
     void build_step_collectors(RunnerInput const&);
     void build_diagnostics(RunnerInput const&);
     void build_transporter_input(RunnerInput const&);
-    void build_primaries(RunnerInput const&);
+    void build_events(RunnerInput const&);
 };
 
+//---------------------------------------------------------------------------//
+// FREE FUNCTIONS
+//---------------------------------------------------------------------------//
+// Get the number of streams from the OMP_NUM_THREADS environment variable
+int get_num_streams();
+
 //---------------------------------------------------------------------------//
 }  // namespace demo_loop