k2-fsa · JinZr · Mar 18, 2024 · Mar 18, 2024 · Mar 18, 2024
diff --git a/egs/aishell/ASR/conformer_ctc/decode.py b/egs/aishell/ASR/conformer_ctc/decode.py
@@ -419,7 +419,7 @@ def save_results(
  for key, results in results_dict.items():
  recog_path = params.exp_dir / f"recogs-{test_set_name}-{key}.txt"
  results = sorted(results)
- store_transcripts(filename=recog_path, texts=results)
+ store_transcripts(filename=recog_path, texts=results, char_level=True)
  if enable_log:
  logging.info(f"The transcripts are stored in {recog_path}")
 
@@ -432,7 +432,11 @@ def save_results(
  results_char.append((res[0], list("".join(res[1])), list("".join(res[2]))))
  with open(errs_filename, "w") as f:
  wer = write_error_stats(
- f, f"{test_set_name}-{key}", results_char, enable_log=enable_log
+ f,
+ f"{test_set_name}-{key}",
+ results_char,
+ enable_log=enable_log,
+ compute_CER=True,
  )
  test_set_wers[key] = wer
 

diff --git a/egs/aishell/ASR/conformer_mmi/decode.py b/egs/aishell/ASR/conformer_mmi/decode.py
@@ -431,7 +431,7 @@ def save_results(
  for key, results in results_dict.items():
  recog_path = params.exp_dir / f"recogs-{test_set_name}-{key}.txt"
  results = sorted(results)
- store_transcripts(filename=recog_path, texts=results)
+ store_transcripts(filename=recog_path, texts=results, char_level=True)
  if enable_log:
  logging.info(f"The transcripts are stored in {recog_path}")
 
@@ -444,7 +444,11 @@ def save_results(
  results_char.append((res[0], list("".join(res[1])), list("".join(res[2]))))
  with open(errs_filename, "w") as f:
  wer = write_error_stats(
- f, f"{test_set_name}-{key}", results_char, enable_log=enable_log
+ f,
+ f"{test_set_name}-{key}",
+ results_char,
+ enable_log=enable_log,
+ compute_CER=True,
  )
  test_set_wers[key] = wer
 

diff --git a/egs/aishell/ASR/pruned_transducer_stateless2/decode.py b/egs/aishell/ASR/pruned_transducer_stateless2/decode.py
@@ -390,7 +390,7 @@ def save_results(
  for key, results in results_dict.items():
  recog_path = params.res_dir / f"recogs-{test_set_name}-{params.suffix}.txt"
  results = sorted(results)
- store_transcripts(filename=recog_path, texts=results)
+ store_transcripts(filename=recog_path, texts=results, char_level=True)
  logging.info(f"The transcripts are stored in {recog_path}")
 
  # The following prints out WERs, per-word error statistics and aligned
@@ -402,7 +402,11 @@ def save_results(
  results_char.append((res[0], list("".join(res[1])), list("".join(res[2]))))
  with open(errs_filename, "w") as f:
  wer = write_error_stats(
- f, f"{test_set_name}-{key}", results_char, enable_log=True
+ f,
+ f"{test_set_name}-{key}",
+ results_char,
+ enable_log=True,
+ compute_CER=True,
  )
  test_set_wers[key] = wer
 

diff --git a/egs/aishell/ASR/pruned_transducer_stateless3/decode.py b/egs/aishell/ASR/pruned_transducer_stateless3/decode.py
@@ -526,7 +526,7 @@ def save_results(
  for key, results in results_dict.items():
  recog_path = params.res_dir / f"recogs-{test_set_name}-{params.suffix}.txt"
  results = sorted(results)
- store_transcripts(filename=recog_path, texts=results)
+ store_transcripts(filename=recog_path, texts=results, char_level=True)
  logging.info(f"The transcripts are stored in {recog_path}")
 
  # The following prints out WERs, per-word error statistics and aligned
@@ -538,7 +538,11 @@ def save_results(
  results_char.append((res[0], list("".join(res[1])), list("".join(res[2]))))
  with open(errs_filename, "w") as f:
  wer = write_error_stats(
- f, f"{test_set_name}-{key}", results_char, enable_log=True
+ f,
+ f"{test_set_name}-{key}",
+ results_char,
+ enable_log=True,
+ compute_CER=True,
  )
  test_set_wers[key] = wer
 

diff --git a/egs/aishell/ASR/pruned_transducer_stateless7/decode.py b/egs/aishell/ASR/pruned_transducer_stateless7/decode.py
@@ -444,15 +444,19 @@ def save_results(
  for res in results:
  results_char.append((res[0], list("".join(res[1])), list("".join(res[2]))))
 
- store_transcripts(filename=recog_path, texts=results_char)
+ store_transcripts(filename=recog_path, texts=results_char, char_level=True)
  logging.info(f"The transcripts are stored in {recog_path}")
 
  # The following prints out WERs, per-word error statistics and aligned
  # ref/hyp pairs.
  errs_filename = params.res_dir / f"errs-{test_set_name}-{params.suffix}.txt"
  with open(errs_filename, "w") as f:
  wer = write_error_stats(
- f, f"{test_set_name}-{key}", results_char, enable_log=True
+ f,
+ f"{test_set_name}-{key}",
+ results_char,
+ enable_log=True,
+ compute_CER=True,
  )
  test_set_wers[key] = wer
 

diff --git a/egs/aishell/ASR/pruned_transducer_stateless7_bbpe/decode.py b/egs/aishell/ASR/pruned_transducer_stateless7_bbpe/decode.py
@@ -581,7 +581,7 @@ def save_results(
  for key, results in results_dict.items():
  recog_path = params.res_dir / f"recogs-{test_set_name}-{params.suffix}.txt"
  results = sorted(results)
- store_transcripts(filename=recog_path, texts=results)
+ store_transcripts(filename=recog_path, texts=results, char_level=True)
  logging.info(f"The transcripts are stored in {recog_path}")
 
  # The following prints out WERs, per-word error statistics and aligned
@@ -594,7 +594,11 @@ def save_results(
 
  with open(errs_filename, "w") as f:
  wer = write_error_stats(
- f, f"{test_set_name}-{key}", results_char, enable_log=True
+ f,
+ f"{test_set_name}-{key}",
+ results_char,
+ enable_log=True,
+ compute_CER=True,
  )
  test_set_wers[key] = wer
 

diff --git a/egs/aishell/ASR/pruned_transducer_stateless7_streaming/decode.py b/egs/aishell/ASR/pruned_transducer_stateless7_streaming/decode.py
@@ -492,15 +492,19 @@ def save_results(
  for key, results in results_dict.items():
  recog_path = params.res_dir / f"recogs-{test_set_name}-{params.suffix}.txt"
  results = sorted(results)
- store_transcripts(filename=recog_path, texts=results)
+ store_transcripts(filename=recog_path, texts=results, char_level=True)
  logging.info(f"The transcripts are stored in {recog_path}")
 
  # The following prints out WERs, per-word error statistics and aligned
  # ref/hyp pairs.
  errs_filename = params.res_dir / f"errs-{test_set_name}-{params.suffix}.txt"
  with open(errs_filename, "w") as f:
  wer = write_error_stats(
- f, f"{test_set_name}-{key}", results, enable_log=True
+ f,
+ f"{test_set_name}-{key}",
+ results,
+ enable_log=True,
+ compute_CER=True,
  )
  test_set_wers[key] = wer
 

diff --git a/egs/aishell/ASR/tdnn_lstm_ctc/decode.py b/egs/aishell/ASR/tdnn_lstm_ctc/decode.py
@@ -278,7 +278,7 @@ def save_results(
  for key, results in results_dict.items():
  recog_path = params.exp_dir / f"recogs-{test_set_name}-{key}.txt"
  results = sorted(results)
- store_transcripts(filename=recog_path, texts=results)
+ store_transcripts(filename=recog_path, texts=results, char_level=True)
  logging.info(f"The transcripts are stored in {recog_path}")
 
  # The following prints out WERs, per-word error statistics and aligned
@@ -289,7 +289,13 @@ def save_results(
  for res in results:
  results_char.append((res[0], list("".join(res[1])), list("".join(res[2]))))
  with open(errs_filename, "w") as f:
- wer = write_error_stats(f, f"{test_set_name}-{key}", results_char)
+ wer = write_error_stats(
+ f,
+ f"{test_set_name}-{key}",
+ results_char,
+ enable_log=True,
+ compute_CER=True,
+ )
  test_set_wers[key] = wer
 
  logging.info("Wrote detailed error stats to {}".format(errs_filename))

diff --git a/egs/aishell/ASR/transducer_stateless/decode.py b/egs/aishell/ASR/transducer_stateless/decode.py
@@ -327,7 +327,7 @@ def save_results(
  for key, results in results_dict.items():
  recog_path = params.res_dir / f"recogs-{test_set_name}-{params.suffix}.txt"
  results = sorted(results)
- store_transcripts(filename=recog_path, texts=results)
+ store_transcripts(filename=recog_path, texts=results, char_level=True)
 
  # The following prints out WERs, per-word error statistics and aligned
  # ref/hyp pairs.
@@ -338,7 +338,11 @@ def save_results(
  results_char.append((res[0], list("".join(res[1])), list("".join(res[2]))))
  with open(errs_filename, "w") as f:
  wer = write_error_stats(
- f, f"{test_set_name}-{key}", results_char, enable_log=True
+ f,
+ f"{test_set_name}-{key}",
+ results_char,
+ enable_log=True,
+ compute_CER=True,
  )
  test_set_wers[key] = wer
 

diff --git a/egs/aishell/ASR/transducer_stateless_modified-2/decode.py b/egs/aishell/ASR/transducer_stateless_modified-2/decode.py
@@ -372,7 +372,7 @@ def save_results(
  for key, results in results_dict.items():
  recog_path = params.res_dir / f"recogs-{test_set_name}-{params.suffix}.txt"
  results = sorted(results)
- store_transcripts(filename=recog_path, texts=results)
+ store_transcripts(filename=recog_path, texts=results, char_level=True)
  logging.info(f"The transcripts are stored in {recog_path}")
 
  # The following prints out WERs, per-word error statistics and aligned
@@ -384,7 +384,11 @@ def save_results(
  results_char.append((res[0], list("".join(res[1])), list("".join(res[2]))))
  with open(errs_filename, "w") as f:
  wer = write_error_stats(
- f, f"{test_set_name}-{key}", results_char, enable_log=True
+ f,
+ f"{test_set_name}-{key}",
+ results_char,
+ enable_log=True,
+ compute_CER=True,
  )
  test_set_wers[key] = wer
 

diff --git a/egs/aishell/ASR/transducer_stateless_modified/decode.py b/egs/aishell/ASR/transducer_stateless_modified/decode.py
@@ -376,7 +376,7 @@ def save_results(
  for key, results in results_dict.items():
  recog_path = params.res_dir / f"recogs-{test_set_name}-{params.suffix}.txt"
  results = sorted(results)
- store_transcripts(filename=recog_path, texts=results)
+ store_transcripts(filename=recog_path, texts=results, char_level=True)
  logging.info(f"The transcripts are stored in {recog_path}")
 
  # The following prints out WERs, per-word error statistics and aligned
@@ -388,7 +388,11 @@ def save_results(
  results_char.append((res[0], list("".join(res[1])), list("".join(res[2]))))
  with open(errs_filename, "w") as f:
  wer = write_error_stats(
- f, f"{test_set_name}-{key}", results_char, enable_log=True
+ f,
+ f"{test_set_name}-{key}",
+ results_char,
+ enable_log=True,
+ compute_CER=True,
  )
  test_set_wers[key] = wer
 

diff --git a/egs/aishell/ASR/whisper/decode.py b/egs/aishell/ASR/whisper/decode.py
@@ -358,7 +358,7 @@ def save_results(
  params.exp_dir / f"recogs-{test_set_name}-{key}-{params.suffix}.txt"
  )
  results = sorted(results)
- store_transcripts(filename=recog_path, texts=results)
+ store_transcripts(filename=recog_path, texts=results, char_level=True)
  if enable_log:
  logging.info(f"The transcripts are stored in {recog_path}")
 
@@ -373,7 +373,11 @@ def save_results(
  results_char.append((res[0], list("".join(res[1])), list("".join(res[2]))))
  with open(errs_filename, "w") as f:
  wer = write_error_stats(
- f, f"{test_set_name}-{key}", results_char, enable_log=enable_log
+ f,
+ f"{test_set_name}-{key}",
+ results_char,
+ enable_log=enable_log,
+ compute_CER=True,
  )
  test_set_wers[key] = wer
 

diff --git a/egs/aishell/ASR/zipformer/decode.py b/egs/aishell/ASR/zipformer/decode.py
@@ -560,7 +560,7 @@ def save_results(
  params.res_dir / f"recogs-{test_set_name}-{key}-{params.suffix}.txt"
  )
  results = sorted(results)
- store_transcripts(filename=recog_path, texts=results)
+ store_transcripts(filename=recog_path, texts=results, char_level=True)
  logging.info(f"The transcripts are stored in {recog_path}")
 
  # The following prints out WERs, per-word error statistics and aligned
@@ -570,7 +570,11 @@ def save_results(
  )
  with open(errs_filename, "w") as f:
  wer = write_error_stats(
- f, f"{test_set_name}-{key}", results, enable_log=True
+ f,
+ f"{test_set_name}-{key}",
+ results,
+ enable_log=True,
+ compute_CER=True,
  )
  test_set_wers[key] = wer