Feature/add phonemizer metadata #125

tanujjain · 2022-01-19T19:06:24Z

Accepts phonemized data for training and prediction by adding additional cardinality to phoneme_language flag in training_config.yaml
Removes skip_phonemization flag since it was unused
Updates symbol list to include wiktionary ipa annotations

…Rollback to this commit if the config file inputs dont work.

…do some comment cleanup.

cschaefer26

I think the script could be simplified.

cschaefer26 · 2022-01-20T09:09:08Z

create_training_data.py

-    test_metadata_path = cm.valid_metadata_path
-    print(f'\nReading metadata from {metadatareader.metadata_path}')
-    print(f'\nFound {len(metadatareader.filenames)} lines.')
+def get_short_files(phonemized=False):


type hints missing.

cschaefer26 · 2022-01-20T09:11:14Z

create_training_data.py

-    print(f'\nReading metadata from {metadatareader.metadata_path}')
-    print(f'\nFound {len(metadatareader.filenames)} lines.')
+def get_short_files(phonemized=False):
+    if not phonemized:


Suggested change

if not phonemized:

symbol_list = all_phonemes if phonemized else _alphabet

cschaefer26 · 2022-01-20T09:13:19Z

create_training_data.py

+    return filter_metadata
+
+
+remove_files = pickle.load(open(cm.data_dir / 'under-over_sized_mels.pkl', 'rb'))


unclosed fileio

cschaefer26 · 2022-01-20T09:13:55Z

create_training_data.py

+remove_files = pickle.load(open(cm.data_dir / 'under-over_sized_mels.pkl', 'rb'))
+phonemized_metadata_path = cm.phonemized_metadata_path
+train_metadata_path = cm.train_metadata_path
+test_metadata_path = cm.valid_metadata_path


inconsistent naming of train and validation

cschaefer26 · 2022-01-20T09:18:09Z

create_training_data.py

+
+new_metadata = [f'{k}|{v}\n' for k, v in phonemized_data.items()]
+shuffled_metadata = np.random.permutation(new_metadata)
+train_metadata = shuffled_metadata[0:train_len]


Suggested change

train_metadata = shuffled_metadata[0:train_len]

train_metadata = shuffled_metadata[0:-test_len]

I think its safer to just use the test_len, also it saves a couple of lines

cschaefer26 · 2022-01-20T10:31:22Z

create_training_data.py

+    file.writelines(test_metadata)
+
+# some checks
+assert metadata_len == len(set(list(phonemized_data.keys()))), \


Suggested change

assert metadata_len == len(set(list(phonemized_data.keys()))), \

assert metadata_len == len(phonemized_data)

Same for the other dict keys.

tanujjain added 10 commits August 31, 2021 14:31

Update gitignore.

4284d88

Add symbols from updated phonemizer (deep phonemizer)

8068ef0

Most changes should work here.

4e6241c

Clean create_training script.

6caa439

Works with external flags, next commits will try to use config file. …

d708547

…Rollback to this commit if the config file inputs dont work.

Allow phonemized data to be passed directly to the training logic.

a90d556

Update tokenizer test to pass with the latest tokenizer.

079742f

Add test to verify that false flag bypasses phonemization step. Also …

adbbd49

…do some comment cleanup.

Revert to generic paths.

2d562e0

Restore defaults for config file and additional cleanup.

984c1af

tanujjain requested a review from cschaefer26 January 19, 2022 19:06

cschaefer26 reviewed Jan 20, 2022

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Feature/add phonemizer metadata #125

Feature/add phonemizer metadata #125

tanujjain commented Jan 19, 2022 •

edited

Loading

cschaefer26 left a comment

cschaefer26 Jan 20, 2022

cschaefer26 Jan 20, 2022

cschaefer26 Jan 20, 2022

cschaefer26 Jan 20, 2022

cschaefer26 Jan 20, 2022

cschaefer26 Jan 20, 2022

cschaefer26 Jan 20, 2022

cschaefer26 Jan 20, 2022

	if not phonemized:
	symbol_list = all_phonemes if phonemized else _alphabet

		return filter_metadata


		remove_files = pickle.load(open(cm.data_dir / 'under-over_sized_mels.pkl', 'rb'))

	train_metadata = shuffled_metadata[0:train_len]
	train_metadata = shuffled_metadata[0:-test_len]

	assert metadata_len == len(set(list(phonemized_data.keys()))), \
	assert metadata_len == len(phonemized_data)

Feature/add phonemizer metadata #125

Are you sure you want to change the base?

Feature/add phonemizer metadata #125

Conversation

tanujjain commented Jan 19, 2022 • edited Loading

cschaefer26 left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

tanujjain commented Jan 19, 2022 •

edited

Loading