テキスト読み上げ (TTS) は、生活に安らぎと快適さをもたらす支援技術の一種です。このシステムは、デジタル テキストを、人間が理解できる程度に明瞭に読み上げます。TTS は読み上げ技術としても知られ、その柔軟性から広く受け入れられています。ワンタッチで、Web サイトのテキストが音声に変換されます。
このシステムは、スマートフォン、ラップトップ、デスクトップ、タブレットなど、あらゆるデバイスに拡張され、子供、20 歳以上の一般人、および障害を持つ人々にとって理想的であると考えられています。TTS を使用すると、読むのに苦労したり、電子機器に目を向けたりする必要がなくなり、聞くことで集中力、学習、およびオンラインで読む習慣が向上します。したがって、ブロガー、読者、または Web サイトの所有者の場合、TTS は知識の視野を広げるソフトウェアです。しかし、すべての音声、制限、境界がない利点は何でしょうか。これは、サービスを使用するユーザーに応じて分離されます。
人間が機械と会話できるようにするのは、人間とコンピュータのインタラクションにおける長年の夢です。コンピュータが自然な会話を理解する能力は、ここ数年でディープニューラルネットワーク(Google Voice Searchなど)の応用によって革命的に向上しました。しかし、コンピュータによる音声生成(通常「音声認識」と呼ばれるプロセス)は、 音声合成またはテキスト読み上げ (TTS) — 依然として、いわゆる 連結TTS、短いスピーチフラグメントの非常に大きなデータベースがXNUMX人の話者から録音され、再結合されて完全な発話が形成されます。 これにより、まったく新しいデータベースを記録せずに、音声を変更する(たとえば、別の話者に切り替える、音声の強調や感情を変更する)ことが難しくなります。
TTS プロセスにはいくつかの段階が含まれます。
TTS テクノロジーには、次のようないくつかの種類があります。
GSpeech は、Web サイト、モバイル アプリ、電子書籍、e ラーニング マテリアル、ドキュメント、日常の顧客体験、交通機関の体験など、さまざまなソースに対応したオンライン、SaaS、オンプレミスのテキスト読み上げ (TTS) ソリューションなど、多くの機能を提供します。TTS テクノロジーを統合する企業、組織、出版社がどのようなメリットを得られるかについて説明します。
TTS テクノロジーは、視覚障害、失読症、または読書困難のある人々にとってアクセシビリティを向上させ、情報にアクセスし、より簡単にコミュニケーションできるようにします。
ユーザーにコンテンツを消費する代替手段を提供することで、WordPress ウェブサイトの検索エンジン最適化 (SEO) を向上させることができます。これは、ウェブをナビゲートするためにスクリーン リーダーに依存しているユーザーにとって特に重要です。
TTS テクノロジーは、デバイスをより自然かつ直感的に操作できる方法を提供し、手動での入力や読み取りの必要性を減らすことで、ユーザー エクスペリエンスを向上させることができます。
TTS テクノロジーは、24 時間 7 日の顧客サポートを提供し、よくある質問に回答し、より効率的かつ効果的な方法で顧客に情報を提供します。
TTS テクノロジーは、データ入力、文字起こし、読み取りなどのタスクを自動化することで生産性を向上させ、より重要なタスクに時間を割くことができます。
TTS テクノロジーは複数の言語をサポートできるため、世界規模で事業を展開する企業や組織にとって貴重なツールとなります。
TTS テクノロジーは、ユーザーが書かれた言葉に沿ってテキストを聞けるようにすることで読解力を向上させ、複雑な情報を理解しやすくします。
TTS テクノロジーは、読書やタイピングの代替手段を提供することで目の疲れや疲労を軽減できるため、画面の前で長時間過ごす人にとって貴重なツールとなります。
TTS テクノロジーは、よりインタラクティブで没入感のある体験を提供することでエンゲージメントを高めることができ、教育およびエンターテイメント アプリケーションにとって貴重なツールとなります。
TTS テクノロジーは、デバイスと対話する独自の革新的な方法を提供することで競争上の優位性をもたらし、製品やサービスを競合他社と差別化します。
これにより、 パラメトリックTTSここでは、データの生成に必要なすべての情報がモデルのパラメーターに格納され、音声の内容と特性をモデルへの入力を介して制御できます。 ただし、これまでのところ、パラメトリックTTSは連結よりも自然に聞こえない傾向があります。 既存のパラメトリックモデルは、通常、出力を次のように知られる信号処理アルゴリズムに通すことにより、オーディオ信号を生成します。 ボコーダー.
WaveNetは、オーディオ信号の生の波形を一度にXNUMXつのサンプルずつ直接モデリングすることで、このパラダイムを変えます。 生の波形を使用することで、より自然な音声が得られるだけでなく、WaveNetは音楽を含むあらゆる種類のオーディオをモデル化できます。
研究者は通常、生のオーディオのモデル化を避けます。なぜなら、生のオーディオは、通常 16,000 秒あたり XNUMX 以上のサンプルで刻々と変化し、多くの時間スケールで重要な構造を持つからです。これらのサンプルの予測が以前のすべてのサンプルの影響を受ける (統計用語で言えば、各予測分布は以前のすべての観測に基づいて条件付けられます) 完全な自己回帰モデルを構築することは、明らかに困難な作業です。
しかしながら、 ピクセルRNN の三脚と ピクセルCNN 以前に公開されたモデルでは、一度に 1 ピクセルだけではなく、一度に 1 つのカラー チャネルで複雑な自然画像を生成できることが示されており、画像ごとに何千もの予測が必要になります。これが、2 次元 PixelNet を 1 次元 WaveNet に適応させるきっかけとなりました。
上記のアニメーションは、WaveNet の構造を示しています。これは完全な畳み込みニューラル ネットワークであり、畳み込み層にはさまざまな拡張係数があり、その受容野が深さとともに指数関数的に拡大し、数千のタイムステップをカバーできます。
トレーニング時の入力シーケンスは、人間の話者から録音された実際の波形です。トレーニング後は、ネットワークをサンプリングして合成発声を生成できます。サンプリング中の各ステップで、ネットワークによって計算された確率分布から値が抽出されます。次に、この値が入力にフィードバックされ、次のステップの新しい予測が行われます。このように 1 ステップずつサンプルを構築するのは計算コストがかかりますが、複雑でリアルなサウンドのオーディオを生成するには不可欠であることがわかりました。
私たちは訓練しました WaveNet Google の TTS データセットのいくつかを使用して、そのパフォーマンスを評価しました。次の図は、WaveNet の品質を 1 から 5 のスケールで示し、Google の現在の最高の TTS システム (パラメトリック の三脚と 連結型)、そして人間の音声と 平均オピニオンスコア(MOS)MOS は主観的な音質テストの標準的な尺度であり、人間の被験者によるブラインド テストで取得されました (500 のテスト文に対する 100 を超える評価から)。ご覧のとおり、WaveNet は米国英語と北京語の両方で、最先端のパフォーマンスと人間のレベルのパフォーマンスのギャップを 50% 以上削減します。
Google の現在の TTS システムは、中国語と英語の両方において世界最高レベルと考えられているため、単一のモデルで両方を改善できたことは大きな成果です。
GSpeech には、業界で最も先進的でリアルな AI 音声合成アルゴリズムが搭載されています。ほとんどの音声合成装置 (Apple の Siri を含む) は、連結合成と呼ばれるものを使用しています。連結合成では、プログラムが個々の音節 (「ba」、「sht」、「oo」などの音) を保存し、それらを即座に組み合わせて単語や文章を作成します。この方法は長年にわたってかなり改善されてきましたが、まだぎこちなく聞こえます。
それに比べて、WaveNet は機械学習を使って音声をゼロから生成します。人間の音声の膨大なデータベースから波形を分析し、24,000 秒あたり 2016 サンプルの速度でそれを再現します。最終結果には、唇を鳴らす音やアクセントなどの微妙なニュアンスを含む音声が含まれます。Google が XNUMX 年に初めて WaveNet を発表したとき、研究環境以外で機能するには計算負荷が大きすぎましたが、その後大幅にスリム化され、研究から製品への明確なパイプラインが示されました。