本文へ移動

多くの企業がデータ活用の前に「うんざりする理由」とその解決策

 業種・業界を問わず、データ活用に向けた機運が高まっている。「組織間を横断するデータを活用したい」「コールセンターやマシンデータ、外部データも対象にしたい」といったニーズはその一例だ。しかしその一方で、データの整形や統合作業に工数をさかれてしまい、思うように進まないケースも少なくない。データ活用の現場では現在どのような課題が生じているのか。またそれに対してどのような解決策があるのか。ここでは、データ活用の新しい可能性について、データ分析を実践している企業の生の声も含めて紹介したい。

迅速なデータ活用を阻む、データ統合の難しさが課題に

 デジタルトランスフォーメーション(DX)やデータドリブン経営へのシフトを図るため、組織間を横断するデータの整備やデータ流通基盤の構築など、データを幅広く活用しようとする機運が高まっている。

 だがその一方で、組織間・企業間をまたがるデータを分析するには、表名や列名が統一されておらず、フォーマットや単位も異なる多様なデータを結合する作業が必要だ。一般的に「前処理」と呼ばれるこの作業は、データ分析業務において最も時間がさかれており、データ分析全体に占める割合の約8割に及ぶケースもあるという。データが整理されていないとAIモデルの構築までたどり着くことができず、予測精度も向上しないからだ。

 医薬品の研究・開発・製造・販売まで、製薬企業のバリューチェーンを総合的に支援する企業「シミック」でも同様の課題を抱えていたという。

 顧客企業の臨床試験や安全性評価などのエビデンス作成支援などを担うCRO(Contract Research Organization:医薬品開発支援)にて事業企画を担当している山東 崇紀氏は、医療・ヘルスケア領域におけるデータ前処理の困難さを次のように説明する。

 「私たちCROでは大きく2つのデータ分析業務があります。1つは『新薬の臨床試験を行う治験でのエビデンス創出』、もう1つが『市場に出た医薬品(上市品)を継続的に調査し、その効果・安全性の評価や新たな価値を検証する製造販売後のエビデンス創出』です。新薬の有効性や安全性を評価する治験は非常にセンシティブですので、臨床現場におけるカルテ情報と、製薬会社が集めてきた情報に差異が無いかを人手で精査する必要があります。また製造販売後の調査でも、各病院における治療データの中で、新たにどのような効果や副作用が出てきたのかをきちんと見極めることが重要です。どちらの業務でも散在する膨大なデータを分析前に精査・統合する作業に多くの人手がかかっており、デジタル化による作業効率の向上やイノベーションの創造が大きな課題になっています」(山東氏)

シミック株式会社
企画推進本部 企画推進部 部長
山東 崇紀 氏

データ活用の課題を解決する新たなテクノロジーを探索

 シミックにおいてデータ分析業務を担当している三浦 伸也氏は、「近年さらにビッグデータ活用のトレンドが加わり、現場作業での負荷が増している」と付け加える。

 「これまで治験や製造販売後調査で収集していたデータは、ある程度目的に沿った形で集められていたものなので、専門的な知識やスキルを持っていれば扱いやすいデータだったといえます。しかし最近は、本来は研究目的で集められたわけではない電子カルテやレセプト等の医療データも含めた医療ビッグデータ『Real World Data(RWD) 』の活用に注目が集まっています。RWDは医薬品の臨床開発や市販後の安全性評価などのアプローチに新たな選択肢をもたらすと期待されていますが、前処理を行おうとすると、必要なデータの一部が欠けていたり、膨大なデータから特定の疾患や薬剤を定義していく作業などが発生したりするため、今まで以上に作業が難しくなっています」(三浦氏)

シミック株式会社
企画推進本部 HEOR・RWE部
三浦 伸也 氏

 RWDの活用は、臨床試験での観察期間やサンプル数の限界を補ったり、無作為での比較試験の実施が困難な希少・難病疾病の開発が促進されたりするなど、さまざまなメリットが期待されている。その一方で、例えば「糖尿病患者を抽出したい」と考えた場合、従来の治験データなら「糖尿病」と記載された項目のデータを引用すればいいが、RWDではさまざまなデータ形式やコード体系が混在しているため、その内容を理解しているデータサイエンティストでなければ抽出するのが難しい。三浦氏によれば、「糖尿病を定義するデータコードだけでも約250種類ある。それをRWDから引用するためのコードリストを作る作業に膨大な時間と手間がかかる」という。

 このように医療・ヘルスケア領域の多様化するニーズに対し、柔軟な対応を行いたいと考えていたシミックでは、データ活用の課題を解決する新たなテクノロジーを探索する中で、NECが持つ多様なAI技術とそのコンセプトに共感。両社で新たなAI活用の取り組みを進めている。

データ分布の特徴量を捉え、ナレッジグラフとのひも付けを実現

 シミックが注目したNECのAI技術の1つが「データ意味理解技術」である。

 「従来のデータ活用は大きく、(1)データを集める、(2)データをきれいにする、(3)データを活用するというステップを定義し、順に活用レベルを上げていきました。そのたびにシステム投資を行い、専任者を教育してと、非常に長い時間と高いコストをかけて、ようやくデータ活用にたどり着くのが一般的だったのです。特に社内外に散在するデータを整理・統合する前処理では、限られた専門家の経験や知見に依存する部分が多く、専任者を育てることができない企業は途中で挫折するケースも少なくありませんでした。そこで私たちは誰でも簡単かつ高精度にビッグデータを整理・統合できるソリューションを開発し、データ活用の敷居とコストを一気に下げようと考えたのです。そのコア技術となるのがデータ意味理解技術です」と、NEC コーポレート事業開発本部 マネージャーの平田 和也は語る。

NEC
コーポレート事業開発本部 マネージャー
平田 和也

 データ意味理解技術とは、テキストと数値が混在した表データの意味を自動で理解するAI技術。もともと付与されている表名や列名を手がかりとするのではなく、各データ列の数値分布の統計的な傾向を手がかりに、必要なデータを自動的かつ高速に抽出する。

データ意味理解技術の概要
専門知識を持つデータサイエンティストによる長時間の作業が必要だったデータ統合を自動化する「データ意味理解技術」。表データの構造と数値特性を含むさまざまな単語のナレッジグラフを活用した独自の機械学習技術をベースとしている

 ナレッジグラフとは、知識の関係性を表すグラフ構造で、数値データ列から数値の出現頻度の分布傾向を示す特徴量を算出し、ナレッジグラフ上の単語ごとの数値分布と比較する。これにより、例えば列名のないデータについても、これは「商品名」、あれは「売上高」といったように、大量のデータ間の関係性を自動で把握することが可能になる。

 「この技術を使えば、バラバラなデータをそのまま受け入れて、ほぼリアルタイムに、使いたいデータにすることができます。この技術をオープンデータに適用したところ、専門家が30日かけていたデータ統合作業を、わずか1時間で同等品質にて行えることを確認しています」と平田は説明する。

さまざまなAI技術を連携させたNEC Data Enrichment

 さらにNECは多様な企業に対するヒアリングに基づき、データ活用をより効率化、高精度化するための新機能も開発した。

 「お客様がお持ちのビッグデータから、それぞれの属性の意味を理解した上で、Web上にある外部データや任意のドキュメントデータからも、同じイメージや属性を持つ関連情報を自動的に収集し、タグを生成する機能を新たに開発しました。これまで高度な知識やスキルを持った人でしか行えなかった外部データの突き合わせをAIが自動化するため、人手では探しきれなかった情報や、最新のトレンドデータも取得でき、データの質、量と予測分析の精度を一気に向上することができます」と語るのは、同技術の開発に携わったデータサイエンス研究所 主任研究員の小山田 昌史だ。

 そしてNECはこれらのコア技術に、ナレッジグラフ構築を支援するツールなども連携させた新サービス「NEC Data Enrichment」の提供を開始した。

NEC
データサイエンス研究所 主任研究員
小山田 昌史
NEC Data Enrichment
NEC Data Enrichmentはデータ意味理解技術をコア技術として、同質のデータを分類する機能やWebや任意のテキストデータを自動的に拡張する機能が実装されている

 「NEC Data Enrichmentは、社内外に散在する膨大なデータから、分析に必要なデータの探索、データの整理・統合をAIによって自動化するデータ活用サービスです。お客様独自のナレッジグラフ構築を支援するツールも準備していますので、自社内にAIの専門家がいなくても、いつでも最適なコストでデータ活用を行っていただけます」と、平田は話す。

データ活用の限界を打ち破る可能性が

 それでは、この新しいデータ活用サービスを活用することで、どのようなことが可能になるのか。今回のサービス開発を支援し、社内でもNEC Data Enrichmentの活用をスタートさせようとしている山東氏は次のように語る。

 「まず、これまで大変な時間と労力がかかっていたコードリストの作成が必要なくなる可能性があります。これは膨大なデータから新たなエビデンスを創出しようとしている多くのデータサイエンティストやデータエンジニアにとって、革新的な出来事になるでしょう。先に挙げたように、1つの疾病を表す医学的な表現は約250種類もあります。それをRWDのように多種多様なデータから人手で抽出する作業がなくなるため、分析までのリードタイムとコストが激減し、今までなら年間数件ぐらいしか試せなかった研究や検証のトライアル&エラーが何倍、何十倍も行える環境に変わっていきます」

 同社が期待する効果はこれだけではない。既に持っているデータだけでなく、外部情報にまで分析対象を拡張することで、新しい可能性が広がるという。

 「例えば、この外部情報の対象を『電子カルテ』や『研究論文』と仮定します。現在、全国の医療機関で活用されている電子カルテシステムは、さまざまなベンダーが開発しており、データフォーマットもそれぞれ異なります。これらの電子カルテデータを一元的に検索できる仕組みは当然ながら存在しないため、臨床研究に携わる先生方は、病院のカルテ情報と、研究者が共用するためのレジストリに同じ情報を二重入力してデータ活用に備えているのが現状です」(山東氏)。この非効率的な作業と入力ミスの発生などが研究のモチベーションを妨げる一因になっているが、NEC Data Enrichmentを活用することで、電子カルテや論文などのデータも一元的に活用できるようになり、現在の医療やライフサイエンス企業が抱えているデータ活用の限界を打ち破る可能性が出てくるという。

 医療現場のさまざまなデータを取り扱う三浦氏も、「属人化していたデータ整理・統合の作業が自動化されることで、人材育成のスピードアップや適正配置が可能となり、データ活用の裾野が一気に広がるのではないでしょうか」と期待を口にする。

幅広い業種でのデータ活用をトータルに支援

 もちろんNEC Data Enrichmentは、医療分野にとどまらず、さまざまな業種・業態のデータ活用で幅広く利用可能だ。

 「例えば、ある消費財メーカーは新商品の需要予測にこのサービスをPoC(概念検証)で適用し、既に実績を上げています。これまで、まったく新しい商品を市場に出す際は、その商品の過去の売上実績がないため、需給予測ができないとされていました。しかしNEC Data Enrichmentを使うと、その商品名やキーワードに含まれている“消費者が反応しそうな要素”をWebから自動的に検索・抽出することができます。このWeb拡張情報を使い、過去の類似商品やその売上高の値を複合して情報量を増やし、新商品の需給予測を行ったところ、予測精度が約2割上がったことが確認できました」(小山田)

 同様に、売上好調な他社製品のWeb情報からNEC Data Enrichmentが自動付与したタグを分析することで、今まで気付いていなかった売れ筋になるための要素を発見することも可能だという。

 「今後のサービス強化として、さまざまな文書・文献や非定型情報との結合なども検討しています。そうなれば、社内で蓄積されているお客様サポートや問い合わせ情報、営業担当者の日報なども横断したデータ分析が可能となり、カスタマーサービスやエンゲージメントの改善などに適用できると考えています。また製造業なら、工場内の品質管理情報や製造管理情報などをトータルに分析した、より精度の高い品質管理や故障検知などにもお使いいただけるでしょう。今後もさまざまな業種のお客様と議論させていただきながら、新たな活用シーンに応じたサービス拡張を目指していきたいと思います」(平田)

 企業がビジネス環境の変化と顧客ニーズに対応した商品・サービスをいち早く提供するには、社内外のビッグデータ活用が不可欠な時代となっている。データ統合とAI活用のハードルを一気に下げるNEC Data Enrichmentは、データドリブン経営とDX推進に向けた大きな切り札となるはずだ。