d2l
音声合成(Text to Speech)。これは自動音声認識の逆である。ここでは、入力がテキストであり、出力がオーディオファイルである。この場合、出力は入力よりもはるかに長くなる。
この用語の詳細な文脈については Dive into Deep Learning の対応する章を参照してください: - 元章で読む
Table Of Contents