サイモン・ポゴシアン の創設者兼CEO GSpeechは、70以上の言語でテキストを自然な音声に変換することで、オンラインコンテンツのアクセシビリティを向上させるWebベースのAIプラットフォームです。VLSI設計のバックグラウンドを持ち、プログラミングとユーザーエクスペリエンスに強い関心を持つサイモンは、ウェブサイトで音声対応コンテンツを提供する方法を簡素化するためにGSpeechを開発しました。
現在、GSpeechは毎月約200億文字の音声を生成し、70カ国以上で利用されています。カスタマイズ可能な音声プレーヤーは、月間200,000万回以上再生されています。GSpeechは最近、音声生成総文字数が1億文字を突破し、急速な成長を続けています。このプラットフォームは、わずかXNUMX行のコードで簡単に統合できるよう設計されており、クリエイター、教育者、企業がコンテンツをより包括的で魅力的なものにするためのサポートを提供します。
VLSI設計(超大規模集積回路)のバックグラウンドと初期のプログラミング経験が、強固な技術的基盤を築いたと伺いました。マイクロエレクトロニクスからAI搭載ソフトウェアの開発へと転向したきっかけは何だったのでしょうか?そして、それがどのようにしてGSpeechの誕生につながったのでしょうか?
問題解決への情熱は、高校時代、数学と物理への愛に突き動かされて芽生えました。その情熱が、シノプシス・アルメニアとの提携により、アルメニア国立工科大学でVLSI設計の学士号(2009年)と修士号(2011年)を取得するきっかけとなりました。物理学の勉強を通して、精密さと分析的思考力を鍛えることができました。しかし、XNUMX年生の時にプログラミング(Pascal言語から始めた)に出会い、たちまちその虜になってしまいました。友人と私は、課題が届くと、たとえXNUMXヶ月間も期限があったとしても、すぐに課題をこなしていました。その後、楽しみのために、他の学生の課題に取り組むようになりました。
この情熱が私をソフトウェア開発へと深く導いたのです。ウェブサイト制作から始め、その後独自のCMSを構築しました。プロセス自動化やデータ管理アーキテクチャの設計といったプロジェクトをいくつか手がけた後、ウェブインターフェースのためのデジタルソリューション構築がどれほど好きかに気づきました。2GLuxプロジェクトを通して、人気ツール「XNUMXGLux」の開発者であるエドヴァルド・アナニアン氏とコラボレーションしました。 GTranslate 翻訳サービスとQuantum Gymnasiumの学校の友人です。彼はWordPressとJoomlaのエコシステムを紹介し、 GSpeech 彼から始まりました。この初期の取り組みが、ウェブページ上のテキストを音声で聞くことができるツールの最初のバージョンにつながり、後にフル機能のAIプラットフォームとなるものの種を蒔きました。2023年までに、私は スマートクラブ合同会社 スケールする GSpeech 70以上の言語をサポートするグローバルAIオーディオソリューションです。 Humanity UnionGSpeech が市民参加プラットフォームのアクセシビリティ向上に貢献したことを称賛する声は、AI を通じてデジタル格差を埋めるという私の使命、つまりプログラミングを始めたころから抱いているビジョンを反映しています。
GSpeechはもともと視覚障がい者を支援するツールとして始まりました。その初期のミッションは、プラットフォームがフル機能のAIテキスト読み上げソリューションへと進化する上でどのような影響を与えたのでしょうか?
アクセシビリティへの注力は、高品質なリアルタイムAIオーディオ、70以上の言語への翻訳、そしてシンプルなコードスニペットによるシームレスなウェブサイト統合の開発を推進しました。このミッションは、カスタマイズ可能なオーディオプレーヤー、言語と音声の選択パネル、コンテキスト認識再生、オーディオダウンロード、そして詳細な使用状況統計(国、都市、デバイスデータ、経時的な再生分析を含む)といった機能の実現につながりました。これらはすべて、コンテンツをより包括的かつ魅力的なものにするために設計されています。100,000万行を超えるコードを記述した後、2023年にGSpeech Cloud Consoleをリリースしました。これは、インクルーシビティと高度な機能を両立させたスケーラブルなソリューションであり、企業やクリエイターがWeb上でコンテンツをアクセシブルで多言語対応、インタラクティブなものにすることを可能にします。
GSpeech Cloud Console の開発中に直面した最大の技術的課題は何でしたか?
GSpeech Cloud Consoleの開発における最大の課題の一つは、リアルタイムで安全かつ高品質なAI音声生成を実現するスケーラブルなアーキテクチャを設計することでした。そのためには、Webから関連コンテンツを取得し、サーバー上で音声処理を行い、クラウドに保存することで、高速かつ信頼性の高い配信を実現する革新的なソリューションが必要でした。暗号化やアクセス制御といった堅牢なセキュリティ対策の実装は、動的なユーザー生成コンテンツを保護する上で不可欠でした。
もう一つのハードルは、高度なニューラルエンジンを用いたリアルタイム翻訳の実現でした。低遅延で正確な翻訳を実現すると同時に、ユーザーが再生する言語と好みの音声プロファイルを選択できる直感的なインターフェースを構築し、ユーザーの快適性とパーソナライゼーションを最優先する必要がありました。最終的に、複数のカスタマイズ可能なプレーヤービューを備えたオーディオテンプレート作成ウィザードを開発し、ユーザーが自身のウェブサイトに合わせて、ユニークで視覚的に魅力的なプレーヤーをデザインできるようにしました。デバイス間の柔軟性、パフォーマンス、使いやすさのバランスを取ることは、やりがいのある課題でした。
70以上の言語でリアルタイム翻訳が可能で、230種類以上の自然な音声を収録。これほど多様な言語セットにおいて、音声品質と正確性をどのように確保しているのでしょうか?
一貫した音声品質を維持するために、継続的に最適化・更新される複数の高度な音声合成(TTS)モデルを統合しています。これらの多言語エンジンは、混合言語のコンテンツを高精度に処理します。また、100種類以上の新しい音声バイブレーションをリリースし、より表現力豊かで自然な音声オプションをユーザーに提供しています。GSpeechは毎月200億文字以上の音声を生成し、70か国以上のユーザーにサービスを提供しています。オンラインプレーヤーは毎月200,000万回以上利用されており、その数は増加傾向にあります。この規模により、継続的なフィードバックと実環境でのテストが確保され、チューニングと品質管理に直接反映されます。
GSpeechがAIと機械学習を活用して、リアルな音声合成を実現する仕組みについて詳しく説明していただけますか?ニューラル音声技術の急速な進歩にどのように対応しているのでしょうか?
GSpeechは、高度なAIと機械学習を活用し、最先端の音声合成モデルを複数統合することで、リアルな音声合成を実現します。自然さと多言語対応に最適化したこれらのモデルは、テキスト入力を処理し、混在言語コンテンツであっても、リアルなイントネーションとリズムを備えた高品質な音声を生成します。多様な言語向けにカスタマイズ可能な音声スタイルを提供することで、ユーザーエクスペリエンスを向上させています。また、TTSエイリアスも統合しており、これにより、特定の単語やフレーズを音声でどのように表現するかについて、ユーザーがカスタムルールを定義できます。例えば、特定の用語を置き換えて、より正確な発音や言い回しを実現できます。ニューラル音声技術の最新動向を常に把握するため、GSpeechは最新の技術を継続的に評価・統合し、業界リーダーと連携し、将来的には独自のモデルを開発する予定です。これにより、GSpeechは音声合成イノベーションの最前線に立ち続けることができます。
音声チューニング、ピッチコントロール、再生のカスタマイズはユーザーにとってどの程度重要ですか? また、これらの機能が特に優れている、最も誇りに思うユースケースは何ですか?
音声チューニング、ピッチコントロール、再生のカスタマイズは、ユーザーにとって非常に重要であり、ニュースやブログのウェブサイトからアクセシブルなeラーニングコンテンツまで、特定のニーズに合わせたユニークで高品質な音声スタイルを作成できます。100種類以上の新しいボイスバイブの継続的な統合により、この機能はさらに強化され、ユーザーは比類のない柔軟性で真に際立つナレーションを作成できます。私が最も誇りに思っているのは、開発中の新しいオーディオ編集および生成プラットフォームであるGSpeech Studioです。このプラットフォームでは、複数のオーディオチャンネルを作成し、それらをBGMとミックスし、洗練されたナレーションをエクスポートできるため、クリエイターはさまざまなアプリケーション向けにプロ仕様のオーディオを制作できます。視覚障害のある学生が、カスタマイズされたオーディオによる自主学習を可能にしてくれたGSpeechに感謝する手紙を読んで、深く感動しました。このユースケースは、これらの機能がコンテンツをどのようにアクセシブルかつ変革的なものにするかを示しています。これは、私がプログラミングを始めた頃から追い求めてきた目標です。
GSpeechはWordPress、Shopify、Wixなどとのシームレスな連携を提供しています。様々なエコシステムを持つクリエイターや企業がプラグアンドプレイで利用できるプラットフォームを実現するために、どのような戦略を立てましたか?
GSpeechとWordPress、Shopify、Wixなどのプラットフォームとのプラグアンドプレイ統合における当社の戦略は、シンプルさ、互換性、そして拡張性を重視しました。シームレスに統合され、最小限の設定(多くの場合、数回のクリックのみ)で済む、軽量でモジュール式のプラグインとコードスニペットを開発しました。つまり、何千もの記事や動的なコンテンツブロックに、手作業なしで即座に音声サポートを追加できるということです。当社は、モバイル、タブレット、デスクトップなど、さまざまなデバイスに適応する、非常に柔軟で美しいデザインのプレーヤーを提供しています。当社のプレーヤーはカスタマイズ可能であるだけでなく、アクセシビリティとユーザーエンゲージメントのために最適化されています。WordPress向けには、プラグインを介してGSpeechクラウドダッシュボードを管理パネルに直接組み込み、ユーザーの管理を合理化しました。詳細なドキュメントと直感的なダッシュボードは、技術に詳しくないユーザーでもインストールとカスタマイズをスムーズに行うことができます。定期的なテストにより、多様なエコシステム全体で一貫したパフォーマンスが確保され、クリエイターや企業がAIを活用したテキスト読み上げ機能を簡単に追加できるようになります。
2012 年から今日までの道のりを振り返って、GSpeech の構築において個人的に、あるいは職業的に最も大きなマイルストーンは何でしたか?
GSpeechにとって最大のマイルストーンは、1億文字の高品質AI音声を生成したことです。これは、アクセシビリティにおける世界的な影響力を示すものです。同様に意義深いのは、ヒューマニティ・ユニオンのような組織から、GSpeechが社会貢献プラットフォームを強化したと称賛されたこと、そしてブログ運営者からユーザーエンゲージメントの「ゲームチェンジャー」と評価されたことです。様々なプラットフォームで110件を超えるXNUMXつ星レビューを獲得しました。 WordPress の三脚と AppSumo ここ数か月、この信頼の高まりを反映しています。
GSpeechは現在、 ウズベキスタンのナマンガン地方統計局 膨大なトラフィックと全国規模の知名度を誇る政府機関です。公的機関が当社のテクノロジーをこれほど幅広く採用してくださったことは、私たちにとって大きな節目であり、当社のソリューションに対する信頼の証です。
クリスチャンであり、アルメニア教会で奉仕する者として、私は可能な限り他の信仰に基づく活動も支援するよう努めています。キリスト教ウェブサイトにGSpeechを無料で提供し、メッセージをより効果的に広め、音声を通して聖書をより身近なものにすることを支援しています。これは、より大きな目的への私の小さな貢献です。同時に、献身的なミニストリー、例えば コード — メシアニック教会であり、GSpeech の大切なクライアントである — その使命と内容は、聖書の力を実践に反映しています。
テクノロジーが信仰、理解、そして包摂の架け橋となるこうした瞬間は、私たちがそもそもなぜ GSpeech を構築したのかを思い出させてくれます。
特にオーディオ コンテンツと音声インターフェースが主流になるにつれて、GSpeech はデジタル メディアの将来においてどのような役割を果たすと思いますか?
GSpeechは、AIを活用した音声によるウェブアクセスを実現することで、デジタルメディアのアクセシビリティと魅力向上を牽引する存在となることを夢見ています。私たちの目標は、オンライン体験全体を変革し、ウェブサイトが自然に音声対話型で、インクルーシブかつ多言語対応となることです。たった1行のコードで、サイト所有者は数千の記事を音声コンテンツに変換できます。将来的には、GSpeech Studioを強力かつ独自の音声生成・編集プラットフォームへと開発を進めており、ユーザーはBGM、エフェクト、そして精密なチューニングを施した多層的な音声コンテンツを作成できます。私たちは、ウェブを真に聞きやすく、直感的で、誰もがアクセスしやすいものにしたいと考えています。
GSpeechは最近AppSumoでリリースされました すでにアーリーアダプターからほぼ完璧な評価を得ています。AppSumoコミュニティからの反響はあなたにとってどのような意味を持ちましたか?また、今後この勢いをどのように活かしていく予定ですか?
AppSumoのローンチにより、GSpeechは数百万人に認知され、ほぼ完璧な評価をいただき、大変嬉しく思っています。オンラインコースを運営しているユーザーをはじめとする多くのユーザーから、直感的なツールと迅速なサポートへの高い評価をいただいており、Humanity Unionからのフィードバックにも共感を呼んでいます。あるブログのオーナーは、GSpeechの音声を「真に魅力的」、翻訳を「素晴らしい」と評してくださいました。こうした肯定的なフィードバックは、AIを活用した音声合成ソリューションの価値を裏付けるものであり、このプロジェクトへの私の情熱をさらに高めています。ローンチ時にクライアントをサポートしたことで、新たなアイデアも生まれました。特に、高度な音声編集機能やエクスポート機能を求めるユーザーからの要望に応えて生まれたGSpeech Studioは、大きな成果です。今後は、コミュニティの声に積極的に耳を傾け、フィードバックを統合し、アクセシビリティとエンゲージメントを高める革新的な機能を開発することで、この勢いをさらに高め、GSpeechがクリエイターや企業にとって変革をもたらすツールとして進化し続けられるよう努めていきます。
最後に、今日の急速に変化するテクノロジー業界で、アクセスしやすい AI 搭載ツールを構築したいと考えている若い開発者や起業家に、どのようなアドバイスをされますか?
若い開発者や起業家の皆さんへ、私のアドバイスは、仕事に心血を注ぎ、独自のスマートなソリューションを提供できる真の課題を見つけることです。まずは小さなことから始め、着実に前進し、顧客からのフィードバックに耳を傾けてください。フィードバックはあなたの進むべき道を導いてくれるでしょう。ユーザーを信頼できる友人のように扱い、全力を尽くし、忍耐強くいてください。AIテクノロジーを強力な味方として受け入れましょう。賢く活用すれば、AIはインパクトがあり、誰もが使いやすいツールを開発する能力を高めてくれます。情熱と粘り強さ、そして変化をもたらすという強い意志を持って開発に取り組めば、真に価値のあるソリューションを生み出すことができるでしょう。
Optium Museum Acrylic® の無料裁断・配送サービスを提供してくださった アントワーヌ・タルディフ インタビュー全文はこちらでご覧いただけます。 ユナイトアイ.