Report8<NEW TECHNOLOGY>

NEC、AIによる自動字幕でテレビ放送を変革へ 
~独自のAI音声認識技術を使用し日本テレビのニュース番組で実証~

AIによる自動字幕についてお話をお聞きした、写真左から伊藤猛氏、服部雅弘氏、鈴木進吾氏、阿部豊子氏

 NEC(日本電気(株) )は日本テレビ放送網(株)とともに日本テレビで日昼に約15分間放送される生放送のニュース番組「ストレイトニュース」においてNEC独自のAI音声認識技術を活用したDX支援サービス「NEC Enhanced Speech Analysis-高性能音声解析-」を活用し、自動で字幕を付与する実証を5月26日(金)に実施した。

 NECは、同サービスの音声認識モデルに放送用語を事前に学習させることで、「ストレイトニュース」の実証により、認識精度99%という高い精度を確認できた。また、耐騒音性が求められるスポーツ中継等での活用を視野に、周囲の雑音やBGMによる誤認識を低減するための技術を開発した。本稿では、今後の放送局の字幕付与システムとして期待されるNEC独自のAI音声認識技術を活用したDX支援サービス『NEC Enhanced Speech Analysis-高性能音声解析-』について、関係者の方に、貴重なお話をお聞きした。
 1人目は、営業グループの中で主に放送局向けに社内外の要素技術を活用して放送局の抱える課題の解決を検討し、新たなソリューションを企画している、メディア統括部第二メディアグループ第四メディア営業チームシニアソリューションプロフェッショナルの阿部豊子氏。  
 AIによる自動字幕では、NECの持つ要素技術を活用して、放送局が課題としている字幕作業の効率化を実現するソリューション企画、スキーム作りを担当している。
 2人目は、ビジネスユニット全体の共通的なソフトウェア・ハードウェアを設計・構築する部門で、テレビマスターシステムなど放送局向けのパッケージソフトウェア開発を行っている、クロスインダストリー共通製品統括部第二共通開発グループ第一ソフトウェアプロダクト開発チーム プロダクトマネージャーの鈴木進吾氏。AIによる自動字幕ではマスターシステム連携を担当した。
 3人目は、今回のAIによる自動字幕の肝となる『NEC Enhanced Speech Analysis-高性能音声解析-』の事業化を担当している、プラットフォーム・テクノロジーサービス事業部門PFテックセールス統括部リードAIエンジニアの服部雅弘氏。『NEC Enhanced Speech Analysis -高性能音声解析-』は、すでに現場で稼働している事業もあり、幅広い事業分野に提案を行っている。
 4人目は、服部氏と同じ部門で、全社の横軸機能となっていて、DXを実現するための商材・製品を主管しているユニットの中で、AIアナリティクス(分析)の商材をメインに、販売支援や促進を行なっている、プラットフォーム・テクノロジーサービス事業部門PFテックセールス統括部ディレクターの伊藤猛氏。以上4氏にお話をお聞きした。     (取材・文責 染矢清和)

 (注釈1) 日本テレビ「ストレイトニュース」:  https://www.ntv.co.jp/straight/
日本テレビ系  月―金:11時30分~11時45分、土:11時25分~11時40分、         
日:11時30分~11時45分 (一部地域を除く)

『NEC Enhanced Speech Analysis
      -高性能音声解析- 』
 AI技術をテレビ放送の自動字幕に応用
 ~次のステップは生成AIと組み合わせた翻訳字幕や要約字幕~

プラットフォーム・テクノロジーサービス事業部門PFテックセールス統括部
 ・ディレクター      伊藤 猛氏
 ・リードAIエンジニア   服部雅弘氏
メディア統括部第二メディアグループ第四メディア営業チーム
 ・シニアソリューション
   プロフェッショナル  阿部豊子氏
クロスインダストリー共通製品統括部第二共通開発グループ第一ソフトウェアプロダクト開発チーム 
 ・プロダクトマネージャー 鈴木進吾氏

深層学習の発展で音声認識に大きな技術革新

本誌:最初にベースとなったAI技術『NEC Enhanced Speech Analysis -高性能音声解析-』の開発の経緯からお話をお願いします。
NEC:NECは、60年以上にわたって音声認識の研究・開発・製品供給を行っています。そのような中、ディープラーニング(深層学習)技術の発展により音声認識に大きな技術革新の機会があり『NEC Enhanced Speech Analysis 高性能音声解析-』を開発、サービス化するに至りました。具体的には、従来の音響モデルと言語モデルという2つのモデルを組み合わせて音声認識を行う方式から、入力音声から直接テキストを出力する弊社が採用したディープラーニング技術を用いたEnd-to-Endによる音声認識により、さらなる精度向上を実現できました。
 音声認識のサービスとして、現在、大きく2つ展開しています。1つは、APIサービスと呼んでいるもので、クラウド上にサービスが有り、そこに音声を投げると認識結果が返ってくる、非常にシンプルなサービスです。
 もう1つは、Meeting Assistantと呼んでいる会議議事録サービスで、リアル会議やWeb会議の音声を、リアルタイムで音声認識をして議事録を作っていくものです。
こういった事業を展開していく中で、放送の字幕用途に使えないかと言う話が出てきて、事業化に着手しました。
本誌:今回、音声入力から直接文字を出力するという、大きなブレークスルーがあったのですね。
NEC:その通りです。従来の音声認識は、音響モデルと言って、音声を音素という音の単位に変換していくモデルと、もう一つは言語モデルと言って、言葉の繋がりを学習したモデルを使い、例えば『白い雲』といったら、この『くも』は虫の『蜘蛛』ではなく、空に浮かぶ『雲』という漢字を当てていく形で音声認識を行っていました。
 それに対して、今回新しく開発して導入した技術は、音声とテキストを同時に学習させるモデルになっています。声を音素に変えて、単語の並びから文章を作ると言うステップではなく、いきなり声から認識結果を出します。この特徴としては、認識精度が飛躍的に向上します。
本誌:これまでは、ワープロの文字変換のように、前後の文体の流れで、変換していたのですね。
NEC:それが、ここ数年で、ディープラーニングの技術が飛躍的に向上した結果として、人間の脳が音声を処理するのと同じように、いきなり声から認識結果が得られるという、新しいモデルが作れるようになりました。従来型の音声認識と比較すると、数パーセントから10パーセントといったレベルで異なります。ケースにより異なりますが、今まで認識精度が80%だったものが90%以上になるという程の大きな差が出ました。
本誌:『NEC Enhanced Speech Analysis -高性能音声解析-』の特徴としては、どのようなものがありますか。
NEC:『NEC Enhanced Speech Analysis -高性能音声解析-』は、最新のディープラーニング技術を採用した高精度の音声認識エンジンを実装したSpeech to textサービスです。その特徴は大きく3つあります。
 1つ目は、最新のディープラーニングによる高精度の実現です。ビジネスを主とした音声データを学習しているNEC独自のモデルであり、自由会話の認識精度を実用レベルまで向上させました。
 2つ目は、騒音環境に対応している点です。業務利用を想定し、様々な騒音に対応する音声認識機能や、騒音フィルター等を実装しています。
 3つ目は、テキスト解析への連携を実現する関連機能を実装している点です。昨今注目される生成AIでの活用などを考慮して、例えば、「あー」「うー」「えー」のような無意味なつなぎ言葉を自動で除去します。
 このような特徴から、リモート会議だけでなく、現場点検や営業商談、コンタクトセンターなど幅広い領域での活用が期待されています。
本誌:騒音についても、ディープラーニングを行ったということですか。
NEC:画像を考えるとイメージしやすいのですが、文字認識では、例えば『ア』という字を汚れがあったり崩れて書かれた形を含めて学習させます。それを繰り返すと、崩れていたり、汚れた文字でも、きちんと認識できるようになります。音声も同じで、色々な雑音が入っても、正しい言葉で、きちんと認識できるようになります。
本誌:字の汚い人の書いた字を、すらすら読める人がいますが、そういう学習をするのですね。
NEC:ノイズの入った状態のものを含めて学習することによって、色々な状態のものを正しく認識できるようになります。

『NEC Enhanced Speech Analysis
 -高性能音声解析-』をテレビ用字幕作成に

本誌:『NEC Enhanced Speech Analysis-高性能音声解析-』を、テレビ放送用の字幕生成に使用した経緯についてお話をお願いします。
NEC:NECとしてDXを推進していますが、メディア統括部では放送業界に向けたDXの提案をしてきました。
 その一つとして、音声認識AIの活用を字幕作成に適応できないかということになりました。
 放送業界では、聴覚に障害のある方やテレビの音が聞こえにくくなった方にも必要な情報が正しく伝わるよう、テレビの字幕放送が求められています。字幕放送を行うためには、音声を人が確認し、手打ち入力をする運用や、音声認識AIにより、音声を自動でテキスト化して活用するような運用がされています。音声認識AIを利用した場合でも、字幕内容の正確性を確保するため、認識結果の校正を人が実施するため、運用負荷が大きいことが課題となっていました。
 この運用負荷の低減や字幕付与の自動化のためには、精度の高い音声認識AIが放送市場で求められていました。特に生放送の字幕制作では、様々な素材が放送に使われているため、BGMや雑音なども多く、また認識スピードも求められています。そのような中で、『NEC Enhanced Speech Analysis-高性能音声解析-』を検証することになりました。
 NECの音声認識エンジンは、騒音などにも強いため、多少の雑音があっても高い精度を維持することができます。これにより、中継先の音声なども高い精度で文字起こしすることができます。
 放送局が扱う素材には、必ず音声がついています。音声認識技術は、放送局の様々なシーンでも活用が期待されるものです。例えば、音声からの番組素材のメタ情報の作成や編集効率化等も1つの応用事例と考えています。
本誌:放送業界で字幕変換というと、文字を手打ちしていたのが一番のネックとなっています。それに対する人件費が大きく、そこを自動化できないかということが一番のポイントになっています。
NEC:総務省も長い間、字幕を付けることに取り組んでいて、完パケの付与率は上がりましたが、生放送の上手な解決法が無いのが現状となっています。総務省の「デジタル時代における放送制度の在り方検討会」でも、放送局の役割が再定義され、報道機関としての役割が重要であると言われています。報道は、生放送が多いので、その点では字幕は聴覚障害のある方にも伝えられるという点で、今後力を入れていく分野だと思います。
 また、キー局や準キー局の規模の放送局では、既に生番組の字幕放送が行われています。地方局もローカルニュース等で生放送番組を行っています。しかし、それに対する字幕付与率は、まだまだ低いのが現状です。そこを自動化するシステムができれば、人件費をかけずに字幕付与を行うことができます。そこを見据えて、全国的に広がるようにシステム開発に取り組んでいます。
本誌:最近は、配信系でも字幕を導入していますので、放送側も取り組みが必要ですね。配信と放送では、コンテンツ内容も、字幕の正確性も大きく違いますが…。
NEC:音声認識による字幕変換は、放送局でも以前からトライされていましたが、変換後の修正作業に何人も付いていて、運用負荷が高くなっていました。
本誌:『NEC Enhanced Speech Analysis-高性能音声解析-』の、テレビ放送の字幕生成以外の応用については、どのようなものを検討されていますか。
NEC:色々な業務、業種での活用が既に始まっています。身近なところですと、リモート会議で議事録作成を支援するための文字起こし、それ以外にもコンタクトセンターでの電話応対、さらに、地域の安全や秩序を守る行政サービスの一部にも活用され始めています。また、営業の人が訪問後に日報を書く実証実験も行っています。さらに、会議の音声を録って、今話題の生成AIを組み合わせて要約をするといった取り組みも始めています。
 特に音声の状態が悪い電話等では、お客様の電話機の性能とか、周りの雑音とか、ノイズがあり、音声認識が難しかったのですが、弊社の技術が出てきて、このような環境でも非常に高い精度で音声認識が可能となり、いままでは使用できなかった分野に導入されているのが現状です。

日本テレビのニュースで
     AI自動字幕作成を実証

本誌:5月末に行った、日本テレビとの実証は、どのような経緯があったのですか。
NEC:『NEC Enhanced Speech Analysis-高性能音声解析-』を実際の放送で検証するにあたって、弊社のマスターシステムを導入いただいた局様の中で、先進的な事にご理解、ご興味をいただける放送局という事で、日本テレビ様にご相談しました。日本テレビ様は、ずっと弊社のマスター設備を使っていただいており、関係も深いものがありました。
 日本テレビ様からも、「生放送字幕制作で音声認識を利用し、正確で、効率的な運用や自動化を目指すには、高い精度と処理速度が必要」との事前のお話がありました。そのような要求に対して、過去の放送データなどを収集し、学習を行ったり、辞書登録を活用したりして、放送に特化した音声認識モデルを作りました。これにより、精度の向上を実現しました。
 実証の結果、「多少の課題はあったものの、NECの技術は生放送でオンエアできる素晴らしいものでした」とのコメントをいただいています。今回は「ストレイトニュース」での実証実験でしたが、事前に、野球中継や情報番組を音声認識で字幕化するデモも見ていただき、『騒音に強い』という点を高く評価していただきました。

日本テレビ 生放送のニュース番組「ストレイトニュース」
 (参照 注釈1)

本誌:放送字幕制作システムは、どのようなシステム構成になるのですか。
NEC:今回のAI字幕は、ノートパソコン1台でも動きます。パソコンレベルで、充分な音声認識が可能です。ここから、字幕のデータをもらって、それを実際の映像に組み込みました。今回の実証では、音声認識は、パソコンの中で完結して、クラウドに繋ぐ等はしていません。実は、日本テレビ様には、他社の音声認識システムが既に導入されており、それを弊社の音声認識エンジンに入れ替えて実証を行いました。
 放送局の自動字幕変換には、認識精度の高いエンジンが常に求められています。運用では認識結果を校正する人が付きます。認識精度が高ければ、校正する人の負荷が減り、字幕が出るまでの時間が短くなります。
 音声認識システムは、音声解析エンジンが有り、音声認識の学習モデルが有り、それに辞書が付いてきます。運用としては、お客様が運用に適した辞書を入れるようになります。それ以外のものは、学習モデルを使って学習させています。辞書には、ニュースに出てくる人名ですとか、地名等、最新の時事情報を登録します。実証では、放送業界に特化した辞書を用意しました。
本誌:実証にあたっては、どのような準備をされたのですか。
NEC:準備作業としては、今回の実証で精度が良く出るように、専用の学習モデルを作りました。必要な音声データを集めてきて、追加学習する仕組みを、我々の抱えているデータサイエンティストの支援を得ながらチューニング作業を行いました。ニュースで使う事が前提としてあったので、時事系の最新の用語を学習させたりしています。実際は、最近のニュースから、1000語程抽出して、追加で登録しています。用語は、オンエアやWeb上のニュースから抽出し学習しました。また、日本テレビ様から、句読点は校正者が行うので、付けないでほしいという要望が有り、そういう微調整もしています。
本誌:辞書は、1000語程度で済むのですか。
NEC:基盤となるモデルで、大量の学習をしており、その上に放送系の音声を追加学習しています。基礎がきちんとできているので、追加学習が大量でなくても精度が高くなります。

スポーツ番組やバラエティ番組でも自動字幕作成

本誌:今回は、ニュース番組での検証でしたが、スポーツ番組やワイドショー、バラエティ番組への対応はいかがですか。
NEC:はい、スポーツ番組ですとかバラエティ番組は、総務省が除外していますが、『NEC Enhanced Speech Analysis-高性能音声解析-』は騒音に強く、そこが解決できるのが強みになります。スポーツ中継のような歓声の中でのキャスターと解説者の掛け合いは、スタジアムの歓声を騒音ととらえるような学習データを作れば、音声認識の活用は可能だと考えます。
 また、今回は、生放送での実証実験でしたが、字幕についてはパッケージ番組での活用も検討されている状況という認識です。音声認識AIはパッケージ番組の字幕制作への活用も可能です。音声認識AIでは話者識別なども可能ですので、そのような機能なども取り込んでいくことも想定されると考えています。
本誌:現在は、オンプレで動いていますが、APIを使うといったことは考えていますか。
NEC:当面、オンプレでいきます。クラウドでAPIを使うとなると、ネットワーク構築やセキュリティ面での考慮も必要となってきます。今後は、放送局のニーズに合わせて、両展開も考えていますが…。


本誌:他社でもAIを利用した音声認識による字幕生成システムを提案されていますが、NECのシステムの優位性はどこにありますか。
NEC:音声認識という部分では、前述した通り、騒音に強いということです。実は、会議室でも雑音や反響音が多く、外では車の騒音など有りますが、そういう所でも認識精度を高く出せると言うのが弊社の特徴です。
 一方、システム面では、NECは多くのテレビ局のマスターシステムを手掛けています。生成した字幕は最終的にはマスターシステムと連携し、送出されていきます。現在は、生字幕の付与率は低いですが、生字幕の対応が当たり前になってくると想定されます。放送局の運用負荷の低減など、マスターシステムと合わせて対応できることが、放送局にとっての安心感になると考えています。
 また、『NEC Enhanced Speech Analysis-高性能音声解析-』は、組み込みやすい連携インタフェースを持っており、他社の字幕生成システムが連携するAIとして、活用することも可能です。
 もちろん、弊社以外のマスターシステムにも対応します。
本誌:『NEC Enhanced Speech Analysis-高性能音声解析-』を使った字幕生成システムを、7月の関西放送機器展で展示・デモを行ったとのことですが、反響はいかがでしたか。
NEC:初めての展示となった関西放送機器展では、日本テレビ様との実証のプレスリリースの直後ということで、字幕制作システムベンダーや、放送局、ネット配信事業者などからお問い合わせをいただいています。個別の紹介やデモの依頼をいただいています。

AI自動字幕システムを関西放送機器展で初展示

 今後は生成AIとの連携で同時通訳や要約生成も

本誌:『NEC Enhanced Speech Analysis-高性能音声解析-』の、今後の展開についてはいかがですか。
NEC:今後は生成AIとの連携が重要になると理解しています。弊社は、今年7月6日に生成AI(Generative AI)による産業の変化に合わせた日本企業の新しい企業価値創造への挑戦に向けて、お客様に合わせてカスタマイズ可能な生成AIを開発し、LLM(Large Language Model:大規模言語モデル)のライセンスから日本市場のニーズに合わせた専用ハードウェア、ソフトウェア、コンサルティングサービスなどを提供する「NEC Generative AI Service」を7月から順次提供を開始すると発表しました。LLMの普及、浸透により、音声認識への期待はますます高まると考えているからです。音声認識とLLMの要約でアピールポイントの抽出ができたり、音声認識とLLMの翻訳で同時通訳ができたりと、放送業界でもそれ以外の業界でも多くのユースケースにつながると考えています。
 NECは、全社的に生成AIに取り組んでおり、社内でも議事録の要約作成については、提供を行っています。また、コンタクトセンターでの、要約を生成AIで行うといった取り組みも進んでいます。
 要約については、放送局からもリクエストをいただいています。完パケ番組については、要約したり、テロップが出ているシーンはオフにしますが、生放送では、要約は行っていません。要約がリアルタイムで実用化できれば、用途は広がると思います。
 字幕も、要約されている字幕や、誰が話しているか明示した字幕など、今でも幾つかの工夫が見られます。そういったものを、どんどんAIで置き換えていける可能性は十分あると思います。
本誌:要約は、人によって違いが出ますが、AIでも違いが出るのでしょうか。
NEC:AIへの指示の仕方で変わります。基本的には、ディープラーニングの世界なので、学習したものを前提に要約を行うので、個性が強く出るものではありません。

 Inter BEE 2023でAIの取り組みを展示・デモ

本誌:NECでは、AIを活用した広告考査支援に向けた実証実験の発表を行ったりしていますが、今後、放送局に提案するAI技術はありますか。
NEC:放送局においても業務効率化などDXが加速されることを想定しています。現在、広告考査支援でも従来、人が目で実施していた作業をAIにより支援することで業務効率化を検証しています。
 マスターシステムという視点では、人の監視業務を支援するために、過去のアラームの分析から運用者への対処方法の提示、故障個所の特定、故障予知などにAI技術の適応を検討しています。
 マスターシステム以外では、画像認識、顔認証を利用した編集作業の効率化、フェイク動画の検知技術、営放システムのCM自動作案などもあります。今後、放送局はコンテンツの価値最大化のために、メタデータの充実、視聴データの収集など様々なデータを分析し、活用していくことが想定されます。メタの自動生成、データ活用に対するAI技術の提案も行っていく予定です。
 大規模LLM技術の活用なども提案していくAI技術の1つと考えます。
本誌:NECは、顔認証システムの分野でも、業界の最先端を走っていますね。
NEC:顔認証システムの分野では、弊社の今岡仁フェローが、高精度な顔認証技術を開発し、顔認証システムとして実用化することで、世界の安全および安心の実現に貢献したことが評価され令和5年春の褒章「紫綬褒章」を受章しました。
 顔認識によるメタ情報の付与やシーンを検出して編集効率を上げるといった取り組みは、以前から行っています。音声認識の応用として今後考えられるのが、放送局がコンテンツ中心で進めていくと、コンテンツの二次利用、三次利用となった時に、メタデータをどれだけ充実させるかが課題となってきます。画には必ず音が付いているので、そこからメタデータを付与するといった応用も出てくると思います。
 弊社も、編集系のファイルベースシステムを手掛けていますが、そこにも音声認識が活かせないかと検討しています。必ず音声が入っていて、音声は番組の内容を示しているので、重要な部分だと思います。アーカイブの検索にも威力を発揮すると思います。
本誌:色々な分野でAIに取り組んでいるのですね。放送局の中でも、DXの部門が立ち上がっており、そういう方々は、NECのこの様な取り組みに興味を持たれますね。
NEC:AIによる自動字幕システムは、Inter BEE 2023において、NECブースでマスターシステムと連携した展示を行う予定です。また、今回お話したAIの取り組みについても一部展示を予定しています。さらに、8月にテレビ大阪㈱と共同で実施した『なにわ淀川花火大会生中継2023』の地上波放送のライブ配信の実証実験に使用した、地上波放送のライブ配信の効率的な運用を実現する『地上波ライブ配信エンコーダソリューション』等のシステムも展示する予定ですので、ぜひInter BEE 2023の会場で、これらのシステムを確認していただきたいと考えています。
本誌:本日はどうもありがとうございました。

NEC、TV大阪と地上波ライブ配信に成功

 NECは、テレビ大阪㈱と共に、去る8月5日(土)に放送された『なにわ淀川花火大会生中継2023』の地上波放送のライブ配信の実証実験を行った。同実証には、地上波放送のライブ配信の効率的な運用を実現するNECの『地上波ライブ配信エンコーダソリューション』を活用した。 テレビ大阪では、生放送番組をライブ配信するのは今回が初めての試みとなった。
 地上波放送のライブ配信を行う際には、CM枠に関する対応や、権利処理に問題が残る番組への『フタ被せ処理』等が必要になる。放送局ではこうした様々な処理についてできる限り簡便かつ自動的に処理し、運用効率向上を実現する仕組みが求められている。今回運用したNECの『地上波ライブ配信エンコーダソリューション』は、テレビ放送信号のHD-SDI信号のアンシラリ領域に重畳するARIBアンシラリデータを直接処理し、マスター送出システムや配信プラットフォームとの連携を1台のエンコーダで可能にするもの。これにより、既存の放送設備への影響を最小限に抑えつつ、ライブ配信の運用効率化を実現した。
 『地上波ライブ配信エンコーダソリューション』の特長は次の通り。
①システム構成の効率化:従来は、SCTE104信号をHD-SDI信号のアンシラリ領域に重畳するSCTEインサータや音声ダウンミックス装置などの複数の放送機器が必要だったが、同エンコーダ1台で配信プラットフォームと連携し、システム構成を効率化する。配信プラットフォームで幅広く採用されているCM挿入タイミングを通知する規格 SCTE-3準拠しており、トリガやステータスの通知に利用されているネットキュー信号と連携した送出が可能となる。
②CMの差し替え運用を自動化:エンコーダはネットキュー信号に連携し、フレーム精度でのCM枠の自動フタ被せ処理を行うとともに、配信プラットフォームに対してCM差し替えに必要な情報をSCTE-35信号で通知する。SCTE-35へ設定するパラメータはエンコーダのGUIもしくはWEB-APIで設定可能となっている。エンコーダのネットキュー信号処理は放送局の要件に合わせて柔軟に対応でき、番組の差し替えなど、運用を拡張することが可能となる。
③音声モードの自動検知によるダウンミックス処理:テレビ放送信号の ARIBアンシラリデータの音声モードを自動検知し、インターネット配信形式に合わせてダウンミックス処理を行う。
 NECは、今後も『地上波ライブ配信エンコーダソリューション』などの活用により、テレビ大阪をはじめとする放送局のネット配信サービスの充実に貢献していく意向である。