TTS Dataset Builder
ЧТО ЭТО ЗА СКРИПТ
Это инструмент для автоматического сбора и подготовки датасетов для обучения модели TTS (нейросеть для клонирования голоса). Программа берёт ваши аудиофайлы с голосами, находит всех говорящих, очищает от шума и нарезает на идеальные 10-секундные куски для обучения TTS.
Для каких моделей подходит:
F5-TTS
E2-TTS
XTTS-v2
Coqui TTS
VITS
Tacotron 2
FastSpeech 2
YourTTS
Bark
Tortoise TTS
StyleTTS 2
NaturalSpeech
Mellotron
WaveNet
Parallel WaveGAN
HiFi-GAN (для обучения)
MelGAN (для обучения)
Любые другие TTS модели
ЧТО ОН ДЕЛАЕТ
1. Загружает модель распознавания голосов
2. Чистит голоса от шума (можно отключить)
3. Получает отпечатки голосов (эмбеддинги)
4. Группирует файлы по голосам
5. Склеивает файлы одного голоса в один большой файл
6. Сохраняет объединённый файл каждого голоса (опционально)
7. Режет на 10-секундные куски
8. Сохраняет куски каждого голоса в отдельные папки (опционально)
ЧТО НУЖНО ДЛЯ РАБОТЫ
- Windows
- Python 3.12
- Видеокарта NVIDIA (опционально, но ускоряет работу)
- Свободное место: ~5-10 ГБ
Более подробно в файле README.TXT в архиве скрипта

Скачать
Яндекс / Зеркало