612
導入事例

 様に導入

  • クラウド
  • コミュニケーション
  • 効率化

株式会社アドバンスト・メディア

 様に導入

Microsoft Azure × AmiVoice によるサービスを強化。最新の音声認識技術とプロフェッショナルの技術をクラウドで結ぶことで、書き起こしニーズのすべてを満たす "VoXT フル サービス" を提供開始

音声認識技術 AmiVoice を活用したさまざまソリューションで、社会に貢献する株式会社アドバンスト・メディアでは、最先端の音声認識をより多くのユーザーに体験、活用してもらうために、クラウド型の文字起こしサービス「VoXT (ボクスト)」を、2013 年 11 月から提供しています。Microsoft Azure をサービス提供基盤として常に最新の AmiVoice を稼働させることで、最良のコンディションによる音声認識活用を提供するこの VoXT では、Azure ならではの開発生産性の高さを活かし、サービス提供開始以来、着々と進化。2014 年 7 月末にも、大きなサービス追加を実施。多くのユーザーから好評を得ています。

<導入の背景とねらい>
クラウド サービスのメリットを活かし、手軽に、
最良の状態で音声認識を活用できるサービスを提供

写真: 志村 亮一 氏

株式会社アドバンスト・メディア
議事録事業部長
志村 亮一 氏

写真: 都丸 充俊 氏

株式会社アドバンスト・メディア
議事録事業部 開発部長
都丸 充俊 氏

写真: 小澤 光広 氏

株式会社アドバンスト・メディア
議事録事業部 開発部
小澤 光広 氏

現在、スマートフォンにも標準搭載され、広く親しまれるようになった音声認識。1997 年から音声認識技術「AmiVoice」の研究・開発を進め、業界を牽引してきた株式会社アドバンスト・メディア (以下、アドバンスト・メディア) では、このテクノロジーの主な応用先として、電子カルテの入力支援や、自治体などで行われる会議の議事録作成支援、コールセンター業務の効率化など、専門的な領域で活用されるソリューションに長年注力してきました。

しかし、音声認識が大幅に向上し、多くの人が日常的に活用する機会が増えた今、「この技術の利便性を、改めてより多くの人たちに実感していただきたい」として、2013 年 11 月からアドバンスト・メディアが提供を開始しているサービスがあります。それが、Microsoft Azure をプラットフォームとして採用したクラウド型文字起こしサービス「VoXT (ボクスト)」です。

「VoXT」は、ユーザーが Azure 上にアップした音声データを、下記の 3 つの方法を選択してテキスト化できるサービスです。

  1. 従量課金制 (1 分あたり 30 円) による自動の音声文字変換サービス
  2. 月額定額制によるマイクを用いた音声入力サービス
  3. 文字起こし用途に特化した無償の音声再生プレイヤーを活用した自己作業

音声認識エンジンは、従来、CPU の性能など、アプリケーションを使用する作業者のスペックにも大きく影響されてきました。しかし、クラウド型サービスとなる VoXT では、アドバンスト・メディアが Azure 上に用意した最新仕様の AmiVoice を活用。PC の性能に依存せず、音声認識エンジン本来の能力を提供できると、アドバンスト・メディア 議事録事業部長 志村 亮一 氏は説明します。
「同音異義語が多く、イントネーションも多様な日本語の音声認識は、簡単なものではありません。当社が提供するサービスにおいても、日々チューニングが重ねられています。VoXT は Azure を活用したメリットとして、最新のスペック環境で、最新のチューニングを施した音声認識を提供しています。その点が、過去にパッケージ販売してきたアプリケーションとの最大の違いになるでしょう」。

そして、2014 年 7 月末。この VoXT のサービスがさらに充実。上記 3 サービスを「VoXT セルフ サービス」として再編すると共に、新たに「VoXT フル サービス」の提供を開始されています。

志村 氏は、この「VoXT フル サービス」について、次のように説明します。
「日本語長文の音声認識は非常に難しく、たとえば地方議会など、発声者がマイクに向かって順番に話をしている音源でも認識率は約 9 割となります。IC レコーダーを使ったインタビュー取材などの場合、元々の録音音質が劣る上に、レコーダーから遠い席にいる方の声が小さくなってしまうなど、認識困難な状況が多々発生します。"セルフ サービス" では、音声認識時に発生した誤変換については、ユーザーご自身に修正していただくことになりますが、"フル サービス" ではプロの専門業者と提携することで、可能な限り正確な "全文書き起こし" を提供します」。

取材や議事録など、音源からの書き起こしが求められるデータ内容には、多くの場合、守秘義務の伴う内容が収録されています。そうした音源を Azure 上にアップし、保存することについて志村 氏は、「2 重 3 重の対策を施しているので、安心して活用していただきたい」と話します。

「そもそも、VoXT のプラットフォームに Azure を採用した理由の 1 つに、お客様への "安全と安心の提供" があります。アップロードする音声データは、元々のファイル形式から別の特別なファイル形式に変換し圧縮するなど、さまざまなセキュリティを講じています。また、Azure であればセキュリティ バッチの適用やデータの保全、サーバーの可用性などをマイクロソフトが担保してくれます。他の IaaS (Infrastructure as a Service) 環境で、弊社責任によるセキュリティ環境を運用するよりも、はるかに効率的であり、お客様にも安心していただきやすいと考えています」。

<Azure 活用の効果>
Visual Studio などの既存開発環境を活用して
開発・検証・公開のサイクルを効率化

アドバンスト・メディアが提供する VoXT は、PaaS (Platform as a Service) である Azure のメリットを活かして、開発運用されていると、同 議事録事業部 開発部の都丸 充俊 氏と小澤 光広 氏は声を揃えます。
「"セルフ サービス" では、お客様が音声文字変換を申し込まれてから約 30 分を目安として文字変換結果をお届けしています。この高速処理を実現するために、Azure の Worker ロールのインスタンスを必要に応じて自動的に増減させる管理機能を独自に開発して、一定の時間を超える音声データはすべて、複数のリソースに分散処理しています。IaaS 環境で同じように可用性とスケーラビリティを確保しようとすれば、1 から開発しなければならないプログラムがいくつもあります。そのほか、VoXT をリリースした昨年 11 月から 2014 年 6 月までに大小合わせて 10 数回のアップデートを行っていますが、開発、検証、公開のサイクルが、非常に短く回っています。これが、Azure 活用の一番のメリットだと思います」(小澤 氏)。

「Azure は、Visual Studio の開発環境と連携しているために、新しくチューニングを行った音声認識エンジンなども、私たち開発担当から直接公開できるようになっています。音声認識をより良い形で活用いただくために、細かいアップデートも、迅速に対応するように運用していますので、こうした利便性の高さは、非常にありがたいですね。また、Azure の場合はマイクロソフトの担当者ともフェイス トゥ フェイスのコミュニケーションが行えますので、心強いです。何か疑問が生じた場合なども、すぐに回答がもらえますので、安心です」(都丸 氏)。

<今後の展望>
情報化が進む現在のニーズを満たす
幅広い音声認識技術の活用へ

志村 氏は最後に、Azure を活用した VoXT の可能性について、次のように話します。
「VoXT に "セルフ サービス" と "フル サービス" が揃うことで、書き起こし業務に従事される方に広く提供できるようになりました。今、ブログや SNS (Social Networking Service) を通じた個人からの情報発信が盛んになる一方で、書き込みの 1 次ソースとなる記者会見などの動画から、コメントを全文書き起こすサイトなどが人気を集めるようになっています。長時間の動画を視聴するよりも、書き起こしを読んだ方が早いですからね。こうしたコンテンツの作成も、VoXT を活用いただければ、より簡単になるでしょう。また、長文のブログ エントリーも、マイクに向かって話すだけで、テキスト化できます。最新の音声認識より多くの人に活用していただき、さまざまな記事作成を効率化していただけるとうれしいですね」。

コメント