Speechz Text to speech 1.0
Pobieranie będzie można pobrać w ciągu 5 sekund.
O Speechz Text to speech
Speechz Tekst do mowy
Synteza mowy jest sztuczną produkcją ludzkiej mowy. Używany w tym celu system komputerowy jest nazywany syntezatorem mowy i może być realizowany w oprogramowaniu lub produktach sprzętowych. System zamiany tekstu na mowę (TTS) konwertuje tekst w języku normalnym na mowę; inne systemy renderować symboliczne reprezentacje językowe, takie jak transkrypcje fonetyczne do mowy. [1] Syntetyzowana mowa może być tworzona przez łączenie fragmentów nagranej mowy, które są przechowywane w bazie danych. Systemy różnią się wielkością przechowywanych jednostek mowy; system, który przechowuje telefony lub diphones zapewnia największy zakres wyjściowy, ale może brakować jasności. W przypadku określonych domen użycia przechowywanie całych wyrazów lub zdań umożliwia wysokiej jakości dane wyjściowe. Alternatywnie, syntezator może zawierać model dróg głosowych i innych cech ludzkiego głosu, aby stworzyć całkowicie "syntetyczne" wyjście głosowe. [2] Jakość syntezatora mowy jest oceniana przez jego podobieństwo do ludzkiego głosu i jego zdolność do zrozumienia. Zrozumiały program zamiany tekstu na mowę umożliwia osobom z wadami wzroku lub niepełnosprawnościami do czytania słuchanie prac pisemnych na komputerze domowym. Wiele systemów operacyjnych komputerów zawiera syntezatory mowy od wczesnych lat 90-tych.
Przegląd typowego systemu TTS
Automatyczne ogłaszanie MENU0:00 Syntetyczny głos zapowiadający nadjeżdżający pociąg w Szwecji. Masz problemy z odtwarzaniem tego pliku? Zobacz pomoc dla mediów.
Przykład microsoft sam MENU0:00 Domyślny głos syntezatora mowy systemu Microsoft Windows XP z napisem "Szybki brązowy lis przeskakuje nad leniwym psem 1,234,567,890 razy. soi" Masz problemy z odtwarzaniem tego pliku? Zobacz pomoc dla mediów. System zamiany tekstu na mowę (lub "silnik") składa się z dwóch części: frontonu i zaplecza. Front-end ma dwa główne zadania. Po pierwsze, konwertuje tekst surowy zawierający symbole, takie jak liczby i skróty, na odpowiednik słów pisanych. Ten proces jest często nazywany normalizacji tekstu, przetwarzania wstępnego lub tokenizacji. Front-end następnie przypisuje transkrypcje fonetyczne do każdego wyrazu i dzieli i oznacza tekst na jednostki prozdydyjskie, takie jak frazy, klauzule i zdania. Proces przypisywania transkrypcji fonetycznych do słów nazywa się konwersją tekstu na fonem lub grafimie na fonem. Transkrypcje fonetyczne i prozody informacje razem tworzą symboliczną reprezentację językową, która jest wyprowadzana przez front-end. Back-end—często określany jako syntezator—następnie konwertuje symboliczną reprezentację językową na dźwięk. W niektórych systemach ta część obejmuje obliczenie prozodyi docelowej (kontur skoku, czas trwania fonema),[4], która jest następnie nakładana na mowę wyjściową.