AIによる自動字幕でテレビ放送が変わる!?
~誰も取り残さない放送を支える音声認識技術の可能性~
現在、放送業界ではバリアフリー化の一環として、音声認識を活用した字幕放送の導入が進められている。NECは日本テレビ放送網株式会社(以下、日本テレビ)とともに、日本テレビの生放送番組「ストレイトニュース」(※1)において、自動で字幕を付与する実証を5月末に実施。本実証は、NEC独自のAI音声認識技術を活用したDX支援サービス「NEC Enhanced Speech Analysis-高性能音声解析-」(※2)を用いて実施生放送番組の本格的な字幕自動化に向けて、大きく一歩を踏み出した。チャットGPTをはじめとする生成系AIが注目される中、今後のAI音声認識技術はどのような方向に向かうのか。今回の実証実験に参加した、日本テレビとNECのプロジェクトメンバーに話を聞いた。
-
※1
日本テレビ「ストレイトニュース」:https://www.ntv.co.jp/straight/
日本テレビ系 月―金:11時30分~11時45分、土:11時25分~11時35分、日:11時30分~11時45分 (一部地域を除く) -
※2
NEC、独自の音声認識技術を活用したDX支援サービスを開発(2022年3月7日発表)
https://jpn.nec.com/press/202203/20220307_01.html
字幕放送の普及は、放送局にとって喫緊の課題
年齢や性別、障がいの有無を問わず、誰もが健康で豊かな生活を享受できる社会を目指す――SDGsのコンセプトが世界的な広がりを見せる中、放送業界でもバリアフリーの実現に向けた取組みが加速している。
総務省は2018年2月、「放送分野における情報アクセシビリティに関する指針」を策定。視覚や聴覚に障がいを持つ人もテレビを視聴できるよう、字幕放送・手話放送・解説放送の普及目標を定めた。近年は災害などの被害も深刻化しており、命を守るための情報をすべての人に確実に届けるという意味でも、放送のバリアフリー化は喫緊の課題となっている。
日本テレビではこの目標に沿って6時から25時までの「字幕付与可能なすべての放送番組」に対して字幕をつけて放送しているが、字幕の内容の正確性を確保するための運用負荷が高いのも実情だ。(クロストーク番組や外国語番組などは現状付与不可能となっている)
これについてNECの阿部 豊子は次のように語る。
「生放送への字幕付与にあたっては、人が音声を聞きながら手入力をしたり、校正したりすることも必要となっています。この方法だと非常に労力がかかるため、字幕付きの生放送番組がどうしても限られてしまうのが現状です。
また、生放送では、音声と字幕が出るタイミングがずれることもありますし、専門用語にも瞬時に対応して、正確に字幕を付けなければなりません。こうしたニーズに対応しつつ、放送局の運用負荷を下げるためには、新しい技術の活用が不可欠となっています」。
「騒音環境下での自由会話に強い」のがNECの最大の強み
こうした課題を解決するためのキーテクノロジーとして、近年注目を集めているのがAIだ。その理由について、NECの秋元 一郎はこう説明する。
「ここ10年で、AIは数列の処理を中心とした簡易なものから、言葉や音、画像などを処理する、より難易度の高い技術へと進化してきました。今まで機械が代替するのは難しいとされていた領域にもAIが浸透し、本当に皆が待ち望んでいた身近な領域で、AIが使えるようになりつつあります。
なかでも近年、めざましい進化を遂げているのが自然言語の領域です。AIを誰もが使えるようになったのは、AIが文章の言い回しや声のトーンまで吸収できるようになったことが大きい。例えば、英語も国や地域によってイントネーションが違いますが、最近のAIは、こうした違いも吸収しながら音声認識ができるようになっています」。
NECは過去60年間にわたって音声認識技術の研究開発を行い、時代に先駆けて最新のサービスを提供。近年は、ディープランニングを活用した独自の音声認識技術の開発にも取り組み、2022年3月、「NEC Enhanced Speech Analysis -高性能音声解析-」(※2)のサービスをスタートした。これは、音声認識技術により音声をテキスト化して、データ分析を行い、業務に活用するための支援を行うサービス。NECのコンサルタントやデータサイエンティスト、SIチームが、上流工程から業務への適用までを一気通貫でサポートする。
それでは、AI音声認識技術におけるNECの強みとは何か。「その特長の1つは、騒音環境下での自由会話に強いという点です」とNECの大久保 博之は説明する。2023年2月に行われた実証実験では、自由会話の認識精度は平均94%に達し、従来製品に比べて10%以上高い精度を持つことが証明された。
「開発にあたっては、屋外や工場内でのさまざまな業務利用シーンを想定して、音声とともに、さまざまなタイプの騒音も学習させています。それを繰り返すことによって、騒音に強いモデルを作り上げ、騒音フィルタなども装着することで、自由会話に強い音声認識を実装することができました」(大久保)。
この技術は、会議の議事録作成支援や、コンタクトセンターでの応対メモの自動作成、建設現場や工場内での点検記録や報告書の自動作成、営業や窓口業務における応対記録や契約時の重要事項説明の証跡記録など、さまざまなシーンでの利用が想定されている。もちろん、冒頭にあげたテレビ字幕の自動化も、今後の広がりが期待される領域の1つだ。
リアルタイム字幕を自動化するには、高い認識精度が不可欠
先に述べたように放送業界ではSDGsの観点から字幕放送の充実に努め、音声認識を用いたリアルタイム字幕制作に取り組んできた。ただその一方で、誤変換の修正などの校正作業もあり、字幕の正確性を確保するための運用負荷が大きいことが課題となっていたという。
「生放送字幕制作で音声認識を利用し、正確で、効率的な運用や自動化を目指すには、高い認識精度と処理速度が必要だと考えています」そう語るのは、日本テレビの古田 貴也氏。
音声認識技術の認識精度がさらに向上すれば、これまで実用化が難しかった『複数人が同時に会話を行う生放送番組』でもリアルタイム字幕制作が可能となり、仮に深夜に災害が発生したとしても、最小限の運用負荷で速報ニュースの字幕が制作できる。そこで、NECは2023年5月、NECが放送業界向けに最適化したAI音声認識技術を活用して、リアルタイム字幕制作の実証実験を実施。AIでニュース番組の音声認識を行い、校正を経てオンエアする、という方法で実験が行われた。
「事前に、野球中継や情報番組を音声認識で字幕化するデモも見ていただいたのですが、『騒音に強い』という点を高く評価していただきました。一般に音声認識エンジンは、周囲の雑音や観客の声が入ると、認識精度が大きく下がる傾向にあります。しかし、NECの音声認識エンジンは騒音に強いので、多少の雑音があっても、高い認識精度を維持することができる。それが、実証実験で、字幕がオンエアされるところまでたどり着いた、大きな理由の1つでした」とNECの服部 雅弘は話す。
検証結果に対する日本テレビの評価も高い。古田氏も「多少の課題はあったものの、NECの技術は生放送でオンエアできる、素晴らしいものでした。引き続き、よりよいAI音声認識技術の開発を応援しております」と話す。
音声認識とチャットGPTで、AIが人間のパートナーになる
「NEC Enhanced Speech Analysis -高性能音声解析-」のサービスも2年目を迎え、「音声データを活用して課題を解決したい」というユーザーの声は、業種・業務を超えて広がりを見せている。今後、NECはどのような形で、音声認識技術の向上とソリューションの充実を図っていくのか。秋元は次のように語る。
「まずは音声認識エンジンの改良です。それと同時に、学習モデルを大規模化し、さまざまなユースケースで高精度の音声認識を行うため、これからも精力的に取り組んでいきたいと思います。
最近は、チャットGPTのような大規模言語モデルの利用も広がっているので、こうしたモデルと音声認識を組み合わせながら、より高度な活用が行えるよう、引き続き強化を図っていきたい。例えば、AIが会話の内容を要約して、話のポイントや課題、要アクション項目を自動的にまとめてくれれば、会議の効率化や業務効率化につながります。最終的には、放送や会議、工事現場でのアナウンスなど、あらゆる利用シーンで使えるモデルの構築を目指したいと考えています」(秋元)。
それでは、音声認識とチャットGPTを組み合わせると、何ができるようになるのか。
「AIを人に役立てようと思えば、人が困っていることに照準を合わせて、活用方法を考えることになります。例えば、AIが議事録から拾い出したアクション項目を、誰と一緒にやればいいのか、どうしたら一番効率的に実践できるのか。その答えをAIが導き出す裏側で、チャットGPTの技術が動いている。チャットGPTにできることは幅が広いので、“人に役立つ”という立場に立てば、一気に広がっていくと思います。そのことによって、僕らの生活が豊かになるというのが理想的だと考えています」(服部)。
例えば、“雑談”ができるチャットGPTと音声認識とを組み合わせれば、ロボットが1人暮らしのお年寄りに寄り添うこともできる。チャットGPTが話し相手になり、一緒にテレビを見て雑談しながら、音声認識で相手の声音を聞き分け、「今日は元気がありませんね。どうしましたか」と語りかける。AIが人間のパートナーとなって、ウェルビーイングの向上や心身の健康に寄与できる時代がそこまで来ているわけだ。
「まず専用のモデルを作り上げ、次のステップとしてパーソナライズを行う。相手の声のトーンや喋り方から心身の状態を把握し、きめ細かくサポートできるようになれば、より一層、人に寄り添ったものができるのではないか。human-centric(人間中心)を突き詰めるなら、そこまで必要だと思いますし、可能性としては十分に考えられます」と秋元は語る。
文字起こしのサポーターから、一人ひとりに寄り添う人生のパートナーへ。SF漫画や小説で人々が夢見た未来は、もうすぐそこまで迫っているのかもしれない。