[Need Help] segment syllables (mandarin pinyin) for syllable-level voice recognition or syllable-level VAD #9

diyism · 2024-11-03T19:04:22Z

I'm trying to use your segmentation-3.0.onnx for syllable segmentaion(mandarin pinyin),
for sherpa-onnx-kws-zipformer-wenetspeech-3.3M-2024-01-01_test_wavs_4.wav,
it can correctly segment the first 7 syllables, but the last 5 syllables are not so accurate,
could you help me to improve it?

$ git clone https://github.com/diyism/pyannote_segment_syllables
$ cd pyannote_segment_syllables/
$ python main.py sherpa-onnx-kws-zipformer-wenetspeech-3.3M-2024-01-01_test_wavs_4.wav
Found 12 syllables:
0.560s - 0.742s
0.742s - 1.066s
1.066s - 1.298s
1.645s - 1.920s
2.035s - 2.203s
2.203s - 2.470s
2.555s - 2.725s
2.725s - 2.960s
3.150s - 3.250s
3.250s - 3.475s
3.550s - 3.760s
3.760s - 3.975s
Saved syllable 001: 0.560s - 0.742s (duration: 0.182s)
Saved syllable 002: 0.742s - 1.066s (duration: 0.324s)
Saved syllable 003: 1.066s - 1.298s (duration: 0.232s)
Saved syllable 004: 1.645s - 1.920s (duration: 0.275s)
Saved syllable 005: 2.035s - 2.203s (duration: 0.167s)
Saved syllable 006: 2.203s - 2.470s (duration: 0.267s)
Saved syllable 007: 2.555s - 2.725s (duration: 0.170s)
Saved syllable 008: 2.725s - 2.960s (duration: 0.235s)
Saved syllable 009: 3.150s - 3.250s (duration: 0.100s)
Saved syllable 010: 3.250s - 3.475s (duration: 0.225s)
Saved syllable 011: 3.550s - 3.760s (duration: 0.210s)
Saved syllable 012: 3.760s - 3.975s (duration: 0.215s)

$ aplay syllables/001.wav
$ aplay syllables/002.wav
$ aplay syllables/003.wav

https://github.com/diyism/pyannote_segment_syllables

ref: k2-fsa/sherpa-onnx#920

I guess that since the segmentation-3.0.onnx can segment syllables(mandarin pinyin), maybe a very small model (even a simple SVM, support vector machine) can recognize all the 1300 mono-syllable pinyins after segmentation-3.0.onnx preprocessing. While the segmentation-3.0.onnx is only 5.8MB, amazing small!

The text was updated successfully, but these errors were encountered:

diyism · 2024-11-15T15:35:37Z

Any hints to improve it?

pengzhendong · 2024-11-17T06:08:02Z

Sorry. I haven't try pyannote-segmentation with pinyin.

diyism changed the title ~~[Need Help] segment syllables (mandarin pinyin) for syllable-level voice recognition~~ [Need Help] segment syllables (mandarin pinyin) for syllable-level voice recognition or syllable-level VAD Nov 3, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Need Help] segment syllables (mandarin pinyin) for syllable-level voice recognition or syllable-level VAD #9

[Need Help] segment syllables (mandarin pinyin) for syllable-level voice recognition or syllable-level VAD #9

diyism commented Nov 3, 2024 •

edited

Loading

diyism commented Nov 15, 2024

pengzhendong commented Nov 17, 2024

[Need Help] segment syllables (mandarin pinyin) for syllable-level voice recognition or syllable-level VAD #9

[Need Help] segment syllables (mandarin pinyin) for syllable-level voice recognition or syllable-level VAD #9

Comments

diyism commented Nov 3, 2024 • edited Loading

diyism commented Nov 15, 2024

pengzhendong commented Nov 17, 2024

diyism commented Nov 3, 2024 •

edited

Loading