confluentinc · mahajanadhitya · Aug 7, 2024 · Aug 20, 2024 · Aug 21, 2024 · emasab
@@ -3122,7 +3122,8 @@ static rd_kafka_op_res_t rd_kafka_consume_cb(rd_kafka_t *rk,
  }
 
  rkmessage = rd_kafka_message_get(rko);
-
+ /* stop the active ts */
+ /* t2 */
  rd_kafka_fetch_op_app_prepare(rk, rko);
 
  ctx->consume_cb(rkmessage, ctx->opaque);
@@ -3218,10 +3219,21 @@ rd_kafka_consume0(rd_kafka_t *rk, rd_kafka_q_t *rkq, int timeout_ms) {
  rd_kafka_app_poll_blocking(rk);
 
  rd_kafka_yield_thread = 0;
+ rd_ts_t now = rd_clock();
+ if (rk->rk_telemetry.ts_fetch_last != -1) {
+ rd_ts_t poll_interval = now - rk->rk_telemetry.ts_fetch_last;
+ rd_ts_t idle_interval = rk->rk_telemetry.ts_fetch_last -
+ rk->rk_telemetry.ts_fetch_cb_last;
+ int64_t poll_idle_ratio =
+ ((double)idle_interval * 1e7) / poll_interval;
+ rd_avg_add(
+ &rk->rk_telemetry.rk_avg_current.rk_avg_poll_idle_ratio,
+ poll_idle_ratio);
+ }
+ rk->rk_telemetry.ts_fetch_last = now;
  while ((
  rko = rd_kafka_q_pop(rkq, rd_timeout_remains_us(abs_timeout), 0))) {
  rd_kafka_op_res_t res;
-
  res =
  rd_kafka_poll_cb(rk, rkq, rko, RD_KAFKA_Q_CB_RETURN, NULL);
 
@@ -3889,6 +3901,7 @@ rd_kafka_op_res_t rd_kafka_poll_cb(rd_kafka_t *rk,
 
  switch ((int)rko->rko_type) {
  case RD_KAFKA_OP_FETCH:
+ rk->rk_telemetry.ts_fetch_cb_last = rd_clock();
  if (!rk->rk_conf.consume_cb ||
  cb_type == RD_KAFKA_Q_CB_RETURN ||
  cb_type == RD_KAFKA_Q_CB_FORCE_RETURN)
@@ -3897,7 +3910,6 @@ rd_kafka_op_res_t rd_kafka_poll_cb(rd_kafka_t *rk,
  struct consume_ctx ctx = {.consume_cb =
  rk->rk_conf.consume_cb,
  .opaque = rk->rk_conf.opaque};
-
  return rd_kafka_consume_cb(rk, rkq, rko, cb_type, &ctx);
  }
  break;

@@ -1873,7 +1873,16 @@ static rd_kafka_buf_t *rd_kafka_waitresp_find(rd_kafka_broker_t *rkb,
  rd_avg_add(&rkb->rkb_avg_rtt, rkbuf->rkbuf_ts_sent);
  rd_avg_add(&rkb->rkb_telemetry.rd_avg_current.rkb_avg_rtt,
  rkbuf->rkbuf_ts_sent);
-
+ if (rkbuf->rkbuf_reqhdr.ApiKey == RD_KAFKAP_Fetch) {
+ rd_avg_add(&rkb->rkb_telemetry.rd_avg_current
+ .rkb_avg_fetch_latency,
+ rkbuf->rkbuf_ts_sent);
+ } else if (rkbuf->rkbuf_reqhdr.ApiKey ==
+ RD_KAFKAP_OffsetCommit) {
+ rd_avg_add(&rkb->rkb_telemetry.rd_avg_current
+ .rkb_avg_commit_latency,
+ rkbuf->rkbuf_ts_sent);
+ }
  if (rkbuf->rkbuf_flags & RD_KAFKA_OP_F_BLOCKING &&
  rd_atomic32_sub(&rkb->rkb_blocking_request_cnt, 1) == 1)
  rd_kafka_brokers_broadcast_state_change(rkb->rkb_rk);

@@ -202,17 +202,30 @@ struct rd_kafka_broker_s { /* rd_kafka_broker_t */
  rd_avg_t rkb_avg_rtt; /* Current RTT avg */
  rd_avg_t rkb_avg_throttle; /* Current throttle avg */
  rd_avg_t
- rkb_avg_outbuf_latency; /**< Current latency
- * between buf_enq0
- * and writing to socket
- */
+ rkb_avg_outbuf_latency; /**< Current latency
+ * between buf_enq0
+ * and writing to socket
+ */
+ rd_avg_t rkb_avg_rebalance_latency; /* Current rebalance
+ latency avg */
+ rd_avg_t rkb_avg_fetch_latency; /* Current fetch latency
+ avg */
+ rd_avg_t rkb_avg_commit_latency; /* Current commit
+ latency avg */
  } rd_avg_current;
  struct {
  rd_avg_t rkb_avg_rtt; /**< Rolled over RTT avg */
  rd_avg_t
  rkb_avg_throttle; /**< Rolled over throttle avg */
  rd_avg_t rkb_avg_outbuf_latency; /**< Rolled over outbuf
  * latency avg */
+ rd_avg_t
+ rkb_avg_rebalance_latency; /* Rolled over rebalance
+ latency avg */
+ rd_avg_t rkb_avg_fetch_latency; /* Rolled over fetch
+ latency avg */
+ rd_avg_t rkb_avg_commit_latency; /* Rolled over commit
+ latency avg */
  } rd_avg_rollover;
  } rkb_telemetry;
 

@@ -359,7 +359,19 @@ static int rd_kafka_cgrp_set_state(rd_kafka_cgrp_t *rkcg, int state) {
 void rd_kafka_cgrp_set_join_state(rd_kafka_cgrp_t *rkcg, int join_state) {
  if ((int)rkcg->rkcg_join_state == join_state)
  return;
-
+ switch (join_state) {
+ case RD_KAFKA_CGRP_JOIN_STATE_STEADY:
+ case RD_KAFKA_CGRP_JOIN_STATE_INIT:
+ rd_avg_add(&rkcg->rkcg_curr_coord->rkb_telemetry.rd_avg_current
+ .rkb_avg_rebalance_latency,
+ rd_clock() - rkcg->rkcg_ts_rebalance_start);
+ break;
+ case RD_KAFKA_CGRP_JOIN_STATE_WAIT_JOIN:
+ rkcg->rkcg_ts_rebalance_start = rd_clock();
+ break;
+ default:
+ break;
+ }
  rd_kafka_dbg(rkcg->rkcg_rk, CGRP, "CGRPJOINSTATE",
  "Group \"%.*s\" changed join state %s -> %s "
  "(state %s)",
@@ -2712,6 +2724,7 @@ static rd_kafka_op_res_t rd_kafka_cgrp_consumer_handle_next_assignment(
  ? "cleared"
  : "not cleared"));
  }
+ rkcg->rkcg_ts_rebalance_start = rd_clock();
  rd_kafka_cgrp_handle_assignment(rkcg,
  rkcg->rkcg_target_assignment);
  }

@@ -346,6 +346,8 @@ typedef struct rd_kafka_cgrp_s {
  * assignment */
  } rkcg_c;
 
+ rd_ts_t rkcg_ts_rebalance_start;
+
 } rd_kafka_cgrp_t;
 
 

@@ -692,12 +692,23 @@ struct rd_kafka_s {
  int *matched_metrics;
  size_t matched_metrics_cnt;
 
+ rd_ts_t ts_fetch_last;
+ rd_ts_t ts_fetch_cb_last;
+
  struct {
  rd_ts_t ts_last; /**< Timestamp of last push */
  rd_ts_t ts_start; /**< Timestamp from when collection
  * started */
  } rk_historic_c;
 
+ struct {
+ rd_avg_t rk_avg_poll_idle_ratio;
+ } rk_avg_current;
+
+ struct {
+ rd_avg_t rk_avg_poll_idle_ratio;
+ } rk_avg_rollover;
+
  } rk_telemetry;
 
  /* Test mocks */

diff --git a/src/rdkafka_op.h b/src/rdkafka_op.h
@@ -29,7 +29,6 @@
 #ifndef _RDKAFKA_OP_H_
 #define _RDKAFKA_OP_H_
 
-
 #include "rdkafka_msg.h"
 #include "rdkafka_timer.h"
 #include "rdkafka_admin.h"

@@ -461,6 +461,12 @@ bool unit_test_telemetry(rd_kafka_telemetry_producer_metric_name_t metric_name,
  (rd_uclock() - 1000 * 1000) * 1000;
  rk->rk_telemetry.rk_historic_c.ts_last =
  (rd_uclock() - 1000 * 1000) * 1000;
+
+ rd_avg_init(&rk->rk_telemetry.rk_avg_current.rk_avg_poll_idle_ratio,
+ RD_AVG_GAUGE, 0, 500 * 1000, 2, rd_true);
+ rd_avg_init(&rk->rk_telemetry.rk_avg_rollover.rk_avg_poll_idle_ratio,
+ RD_AVG_GAUGE, 0, 500 * 1000, 2, rd_true);
+
  rd_strlcpy(rk->rk_name, "unittest", sizeof(rk->rk_name));
  clear_unit_test_data();
 
@@ -483,12 +489,30 @@ bool unit_test_telemetry(rd_kafka_telemetry_producer_metric_name_t metric_name,
  RD_AVG_GAUGE, 0, 500 * 1000, 2, rd_true);
  rd_avg_init(&rkb->rkb_telemetry.rd_avg_current.rkb_avg_throttle,
  RD_AVG_GAUGE, 0, 500 * 1000, 2, rd_true);
+ rd_avg_init(
+ &rkb->rkb_telemetry.rd_avg_current.rkb_avg_rebalance_latency,
+ RD_AVG_GAUGE, 0, 500 * 1000, 2, rd_true);
+ rd_avg_init(&rkb->rkb_telemetry.rd_avg_current.rkb_avg_fetch_latency,
+ RD_AVG_GAUGE, 0, 500 * 1000, 2, rd_true);
+ rd_avg_init(&rkb->rkb_telemetry.rd_avg_current.rkb_avg_commit_latency,
+ RD_AVG_GAUGE, 0, 500 * 1000, 2, rd_true);
+
  rd_avg_init(&rkb->rkb_telemetry.rd_avg_rollover.rkb_avg_rtt,
  RD_AVG_GAUGE, 0, 500 * 1000, 2, rd_true);
  rd_avg_init(&rkb->rkb_telemetry.rd_avg_rollover.rkb_avg_outbuf_latency,
  RD_AVG_GAUGE, 0, 500 * 1000, 2, rd_true);
  rd_avg_init(&rkb->rkb_telemetry.rd_avg_rollover.rkb_avg_throttle,
  RD_AVG_GAUGE, 0, 500 * 1000, 2, rd_true);
+ rd_avg_init(&rkb->rkb_telemetry.rd_avg_rollover.rkb_avg_outbuf_latency,
+ RD_AVG_GAUGE, 0, 500 * 1000, 2, rd_true);
+ rd_avg_init(
+ &rkb->rkb_telemetry.rd_avg_rollover.rkb_avg_rebalance_latency,
+ RD_AVG_GAUGE, 0, 500 * 1000, 2, rd_true);
+ rd_avg_init(&rkb->rkb_telemetry.rd_avg_rollover.rkb_avg_fetch_latency,
+ RD_AVG_GAUGE, 0, 500 * 1000, 2, rd_true);
+ rd_avg_init(&rkb->rkb_telemetry.rd_avg_rollover.rkb_avg_commit_latency,
+ RD_AVG_GAUGE, 0, 500 * 1000, 2, rd_true);
+
  TAILQ_INSERT_HEAD(&rk->rk_brokers, rkb, rkb_link);
  rd_buf_t *rbuf = rd_kafka_telemetry_encode_metrics(rk);
  void *metrics_payload = rbuf->rbuf_wpos->seg_p;
@@ -527,6 +551,22 @@ bool unit_test_telemetry(rd_kafka_telemetry_producer_metric_name_t metric_name,
  rd_avg_destroy(
  &rkb->rkb_telemetry.rd_avg_rollover.rkb_avg_outbuf_latency);
  rd_avg_destroy(&rkb->rkb_telemetry.rd_avg_rollover.rkb_avg_throttle);
+
+ rd_avg_destroy(
+ &rkb->rkb_telemetry.rd_avg_current.rkb_avg_rebalance_latency);
+ rd_avg_destroy(
+ &rkb->rkb_telemetry.rd_avg_rollover.rkb_avg_rebalance_latency);
+
+ rd_avg_destroy(
+ &rkb->rkb_telemetry.rd_avg_current.rkb_avg_fetch_latency);
+ rd_avg_destroy(
+ &rkb->rkb_telemetry.rd_avg_rollover.rkb_avg_fetch_latency);
+
+ rd_avg_destroy(
+ &rkb->rkb_telemetry.rd_avg_current.rkb_avg_commit_latency);
+ rd_avg_destroy(
+ &rkb->rkb_telemetry.rd_avg_rollover.rkb_avg_commit_latency);
+
  rd_free(rkb);
  rwlock_destroy(&rk->rk_lock);
  rd_free(rk);