講演レポート:第71回「ベストセラー「統計学が最強の学問である」の西内啓氏が語る!「決めるのはデータだ!ビッグデータからビジネスを革新する」」 |システム構築やトータルソリューションをお探しなら、日立ソリューションズをご利用ください。

Prowise Business Forum in Tokyo 第71回

講演レポート

ベストセラー「統計学が最強の学問である」の西内啓氏が語る!
「決めるのはデータだ!ビッグデータからビジネスを革新する」

~イノベーションを起こすビッグデータ分析の世界潮流~

 イノベーションを求め、各企業が活用を模索しているビッグデータ。「統計学」はビッグデータの分析において切っても切れない関係にあり、注目が高まっています。医学、心理学、経済学、そしてスポーツにおいても統計学を用いたデータ分析が盛んになっており、それが及ぼす影響は大きくなっています。しかし統計学の知識を有し、ビッグデータを扱うデータサイエンティストが世界的に不足していると言われています。専門組織や人材の不在により、ビッグデータの分析ができないという意見を多く耳にしますが、ビッグデータの分析は敷居が高く、遠い存在なのでしょうか。
 そこで本フォーラムでは、基調講演にベストセラー「統計学が最強の学問である」の著者で、多くの企業においてデータ分析およびデータ分析者研修プログラムの開発に携わる西内 啓氏をお招きし、統計学がこれまで生み出してきたインテリジェンスを語っていただくことで、ビジネスパーソンに必要とされるデータ分析の勘所に迫っていただきました。
また、日立ソリューションズからは大量データの高速処理実現、データを活用した新たな価値創出の2つの分野で取り組みについてご紹介いたしました。
 さらに、今回は特別講演として、Splunk Services Japan合同会社の須田 孝雄様より、世界90ヶ国以上、6,400社を超える同社製品の導入実績を元に、米国におけるマシンデータの積極活用事例をご紹介いただくとともに、株式会社日立ビルシステムの柴田 康弘様からは、遠隔監視システムの稼働データを活用したサービス向上の取り組みと、Splunkの導入事例についてご紹介いたしました。

セミナー風景

日立ソリューションズのビッグデータ関連の商品はこちらからご覧になれます。

基調講演

統計学が最強の学問である
  ~ビッグデータからインテリジェンスを生み出すために~

統計家
西内 啓 氏

西内 啓 氏

講師プロフィール

1981年生まれ。東京大学医学部卒(生物統計学専攻)。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバード がん研究センター客員研究員を経て、現在はデータに基いて社会にイノベーションを起こすための様々なプロジェクトにおいて調査、分析、システム開発および戦略立案をコンサルティングする。著書に『統計学が最強の学問である』(ダイヤモンド社)、『世界一やさしくわかる医療統計』(秀和システム)、『コトラーが教えてくれたこと』(ぱる出版)など。

≪聞き手≫ ITジャーナリスト/Publickeyブロガー
新野 淳一 氏

新野 淳一 氏

講師プロフィール

大学でUNIXを学び、株式会社アスキーに入社。データベースのテクニカルサポート、月刊アスキーNT編集部 副編集長などを経て1998年退社、フリーランスライターに。2000年、株式会社アットマーク・アイティ設立に参画、オンラインメディア部門の役員として2007年にIPOを実現、2008年に退社。再びフリーランスとして独立し、2009年にブログメディアPublickeyを開始。 2011年に「アルファブロガーアワード2010」受賞。現在に至る。

基調講演では、ベストセラー『統計学が最強の学問である』の著者で統計家として活躍中の西内啓(にしうちひろむ)氏が登壇。聞き手にITジャーナリストでブログメディアPublickeyを主宰する新野淳一氏を迎え、ビッグデータと統計学の関係、データをビジネスに活かすための方法について議論を進めた。

仮説を立てて計画に結び付ける方法はクローズドな問いしか出てこない

 西内氏は、ビジネスの意思決定で統計学がいかにパワフルかを体感してもらうために統計家として活動しているという。
 冒頭で、ミシンを2台買うと10%割引するというバナー広告を出したメーカーの成功例や、若者に対する禁煙キャンペーンで体制側への反発を利用して3分の1にまで喫煙率を低下させた事例などを示す西内氏は、「人々の行動を変える上で、データを活用することが非常に大きなパワーを生む」と話す。
 新野氏は、「では、そうした効果を生むためにはビッグデータをどのように取り扱えばいいのか」と問いかけると、西内氏は「平均的な層をターゲットとするか、極端な層を動かしたいのかの目的によって分析の仕方や方法論が異なってくる」という。平均的な知見が目的ならば、1億件の中から1~2万件のみを抽出し、そこから推測した傾向は全体にも適用できるが、1億件の中には非常に極端なマイノリティも含まれるため、それを分析するには全件を探索し、一部の特異な行動を抽出する必要があるという。
 また、新野氏の「ビジネスをデータで前進させるためには仮説を立て、計画、実践し、その結果を分析して再び仮説を立てるというPDCAのサイクルを回せといわれてきた」という意見に、西内氏は、「仮説を立てるという考え方は現在ではあまり行われなくなっている」と指摘する。
 仮説を立てるという考え方は、データを集めるために莫大なコストが必要な時代のなごりであり、効率を考えてある程度フォーカスするというやり方をとらざるを得なかった。「仮説を考えると、イエスかノーかのクローズドな問いしか出てこない」(西内氏)
現在はデータを低コストで大量に集めやすくなっており、いまあるデータの範囲で優先度を付けることが得意なコンピュータにオープンクエスチョンで問う統計解析を利用することでビジネスのチャンスが増えるという。

分析に必要な3つのポイント

 では、ビジネスにおけるオープンなクエスチョンとは何か。西内氏は次の3つのポイントが重要だという。

(1)アウトカム(ゴール)。自社製品のユーザーにアンケートをしたところ約90%が満足と答えたが、実際には他社製品は98%満足していたというケースでは、集計は行ったが分析につながっていないことが原因で、何らかの比較軸が必要になる。何が望ましく、何が望ましくないかを具体的、かつ定量的にできるだけ多く定義することがアウトカムとなる。
(2)解析単位。同じアウトカムでも望ましい状態を比較するための単位が必要になる。それにより分析した結果何を求めたいのかが明確になる。
(3)説明変数。比較軸に対して合っているか間違っているかではなく、望ましい状態を左右する要因を可能な限り定義する。

 説明変数を定義することは難しい。しかし、例えばGPSによる位置情報では、IDに対して時刻、緯度、経度でデータが蓄積しているが、位置ではなく人を重要な解析単位と考え、そのID(人)は移動中なのか停止中なのか、15分まえの位置との差は100m以内か、時間帯は朝か昼か夜かなど集計した結果を、店舗情報や外部の地図データと照合していけば、どんなタイプの人が、どの場所を頻繁に利用しているのかがアンケート調査をしなくても分かるようになるという。
「こうしたオープンなクエスチョンにクイックに答えてくれる多変量解析で総当たりに分析することで、最も有効な手段が導き出せる」(西内氏)

統計学をビジネスに活かすためのセオリー

 「ここまで説明されると、統計学をビジネスでも利用できそうな気がしてくる」という新野氏に、実はこの後が重要だと西内氏は釘を刺す。
 分析にあたり、どの領域にフォーカスするかが間違っていると良い答えは出ないという。アウトカムとして何を最大化することが会社の利益に直結するのかを考え、その後に解析単位を設定し、説明変数を定義していくことで構造化し分析するといったセオリーがあるという。
 例えば、「購買」というのは結果で動かせないアウトカムだ。その背後には、ウキウキした人は商品を買いやすいという「心理要因」や魅力的な広告に触れた人は購買しやすいという「広告接触」、カワイイイメージや信頼感という「ブランド力」などは動かすことが可能な説明変数となるため、それに向けた商品作りにアクションを行うことが基本的なやり方だ。
 一方、「性別」や「年齢」、「世帯収入」などは動かせない説明変数となるため、アウトカムにつなげるためには狙い所をずらすという方法もある。女性や高齢の人も訪れやすいい店構えに変えるとか、安価な商品のラインナップを増やすなど、原因を遡り、簡単にコントロールできる地点にまで落とし込めば売上に結びつく可能性がある。
 では、「在庫ロス」という動かせないアウトカムに対して、説明変数が「季節」、「景況指数」、「仕入れ数」の場合はどうするか。季節と景況指数はずらすことさえできないが、仕入れ数は状況に合せて制御できるため、在庫の変動予測に従って仕入れ数を最適化することができれば、データ分析からの価値が生まれる。
 西内氏は、「こうしたセオリーを踏まえ、今、自社の中で最も価値を生み出すところはどこかを発見してもらいたい」と語る。

データを見ることで仕事が会社にどう貢献しているのかがわかる

 そこで新野氏は、「データ分析をITがどのようにサポートできるのだろうか」と問う。
 西内氏は、「最初は分析ツールを導入するだけではなく、外部の分析の専門家のアドバイスを受けたり、統計学の勉強をしたりするなどの努力は必要だろう。しかし、それはあまりサスティナブルな方法ではない」と述べる。 トリッキーなプログラムを書きSQLを最適化し、高度な処理や計算、推定ができるようになるよりは、単純にストレージを高速な製品に替えることで解決する側面もあるし、ちょっとした分析ツールを導入し、それが高速に処理をしてくれれば、継続的に分析を行う文化が生まれるかもしれないという。
「今、何を投資することが最も効果を生み出すのか、このITに投資することがいくらの価値を生むのかということを明らかにした上で、必要なものを取り入れることが、企業が継続的にデータ分析を行い、価値を生み続ける上で非常に重要だ」(西内氏)
 最後に新野氏は問いかける。「アウトカムに対して解析単位と説明変数を定義して分析できる形にすることが重要だと学んだが、実はそこが難しい。企業が抱えるデータを見渡せる立場にいるITの担当者がそれに慣れるためには何をすればいいのだろうか」
 それについて、西内氏は「慣れることが大事」だとアドバイスする。これまでのIT部門は、既に仮説や解析対象が決まっているデータを分析するという形式が多かったが、目的のアウトカム、解析単位、説明変数を念頭に、営業成績を最大化するために必要な分析をExcelで使ってやってみることも有効だという。
「何気ない毎日の仕事が、会社のどんな貢献につながっているのかあまり意識していないはず。データを見てみることで、会社の中でのメンバーシップ意識が高まり、やりがいが生まれるのではないかと思う」(西内氏)

日立ソリューションズセッション

日立ソリューションズのビッグデータビジネスへの取り組み

株式会社日立ソリューションズ
ビッグデータビジネス推進センタ
センタ長 渡辺 憲和

渡辺 憲和

 本セッションでは、日立ソリューションズが考えるビッグデータビジネスと、ビッグデータを活用した実証実験の事例について紹介した。

データ利活用のためのプラットフォームとノウハウを提供

 日立ソリューションズでは2011年ごろからビッグデータビジネスに取り組み始め、2012年にはビッグデータ関係の事業を企画・推進する部門を独立させた。その部門を率いてきた渡辺は、これまでの取り組みからビッグデータの利活用における課題について、「従来の高速処理、多様なデータへの対応、リアルタイム処理の他に、多種多様な製品・技術への対応と環境構築、プライバシーへの抵触といった問題が非常に重荷になっていることがわかった」という。
 また、データ利活用の組織戦略とノウハウ不足、人材不足、データ精度の悪さも課題だと話す。「一般に、データサイエンティストには、データ分析ができ、顧客の課題を認識し、ビジネスも考えられる素養が求められるが、そんなスーパーマンは存在しないので、データを分析する人と、顧客課題を設定し解決策の仮説検証を行なう人に分けて対応している」
 ビッグデータ利活用に必要な高速データ処理や大量データの分析において、個々のソリューションは存在するものの、それらをばらばらのまま導入しても活用することは難しい。そのため日立ソリューションズでは、データ利活用のためのプラットフォームの提供と、それに向けたノウハウ、各種商材を組合せたワンストップソリューションの提供を行なっていく。

人の動きと売上データを連携して売上拡大に寄与する効率的な商品配置に応用

 次に渡辺は、いくつかのビッグデータ活用事例を紹介した。

 1つ目は、マーケティングにおける人間行動分析の実証実験だ。従来のマーケティングではPOSデータに代表される購買データに関する分析が確立していたが、購買前後の行動は測定・分析が困難だった。そのため、人の流れ、通行頻度、集団の活性度、コミュニケーション、性別、年齢層などを見える化・モデル化することで、購買行動につなげる上での気づきを得られる可能性があると考えたという。
「来店から購買までの各消費行動プロセスの可視化が改善のキーになると考え、POSデータ以外に、来店者属性測定システム、レーザーによる人流分析システム、無線タグ、画像分析による動き検出などの店舗動線分析サービスを流通・小売業の顧客に活用した」
 Webカメラを活用し、画像分析で来場者などの属性別統計情報を抽出。店舗前の非来場者の動きを捕え来場率を明確にすることで来店促進の効果的な打ち手を検討できたという。
 また、レーザーを利用して物体(人間)までの距離を計測し、その動きをデータ化。それにより、人が滞留する場所とそうでない場所が明確になり、売上のデータを連携させることで寄りつきの良い場所に単価の高い商品を配置するなど有効な施策につながったという。

 2つ目は、プロモーションの効果分析だ。コンビニやDM関連の企業を対象に、売上データからプロモーションの効果を定量的に分析するため、売上目標をシミュレーションしながらプロモーションの企画を作成。それにより、販売データから商品を購入する顧客の属性を明らかにし、スコアリングによりプロモーションの対象を有望な顧客のみに絞ったり、新たなターゲットセグメントを開拓したりした。

 3つ目は、SNSに掲載されている顧客の声(テキスト・音声)やつぶやきを分析して業務改善やマーケティングに活用した事例。従来は、自社に蓄積した情報しか活用できなかったが、パブリックなSNSからも情報を活用し、テキストマイニング技術で統計的な分析ができるようになったことで、関連情報と組み合わせて新しい価値を創造し、守りの業務から前向きな業務へと変化した。

 そして4つ目が、日立ソリューションズが提供するファンビジネス基盤サービスへの応用例。スポーツチームなどに対し、プロモーションの効果測定や、顧客の行動属性を加味したクラスター分析、大量の統計指標化、および大量の相関係数算出による発見的な相関分析などを行い、有効な顧客を優遇する施策を打つことで、観客の満足度のアップと観客動員数の増加に取組んでいる。

ビッグデータ活用は地道な実証実験で検証することが重要

 しかし、こうした事例は企業の競争力の源泉となるコア業務強化のために最も重要なデータで分析しているため、どういうデータをどのような観点で分析し、どういう価値を導き出しているかという詳細内容を横展開することは困難である。また、他社の成功事例をそのまま持ってきても成功するとは限らない。
 そのため渡辺は、「自社にどのようなデータがあるのかを把握し、またそれを使って何をしたいのか仮説を立て、実証実験を半年~1年ほど繰り返し検証を行っていくしかない。そうしたノウハウは当社グループから提供できる。ぜひ協力させていただきたい」と提案する。

特別講演1

ビッグデータ先進国、米国での活用事例

Splunk Services Japan合同会社
チャネルセールスマネージャ
須田 孝雄 氏

須田 孝雄 氏

 特別講演1では、データ分析ソフトウェアSplunkを使用した米国でのデータ活用事例について、Splunk Services Japan合同会社の須田氏が紹介した。

ビッグデータの中でもマシンデータは急速に拡大し最も価値のあるエリア

 リアルタイムにマシンデータを収集し、インデックス化した時系列データベースから、必要な情報を抽出してモニタリング、可視化レポート、分析に活用するSplunkは、世界90ヶ国以上、6400社を超える導入実績を持ち、日本では約140社が採用している。
「Splunkは非構造化データをリアルタイムに取り扱うことが得意なソフトウェアで、ビッグデータの中でもマシンデータを対象としている。現在急速に拡大し、複雑化して、最も価値のあるエリアだ」と須田氏は説明する。
 RDB(リレーショナルデータベース)は不要。NoSQL型の独自のデータベースを使用しマシンデータの中に含まれるユーザーIDやオーダー番号、製品のプロダクトID、コールセンターのログなど取り込んだデータにキーバリューを設定する事が容易で、異なるデータソースからリアルタイムにデータを取り込める。Splunkはコモディティハードウェアで動作し、規模に応じて容易にスケールアウト出来る事も大きな特長である。
「はじめはひとつのログソースを対象にサーチを実行し、起きた事象に対しての考察を行うことから試してみて、徐々にその有効性が分かると複数のシステムログをリアルタイムに収集し、プロアクティブな監視やオペレーションの見える化、リアルタイムなビジネス洞察へと拡大する傾向にある。我々はこれを、オペレーショナルインテリジェンスと呼んでいる」
 Splunkを活用して、セキュリティのリスク管理を目的としてリアルタイムにユーザーの振る舞いを監視したり、IT運用の効率化の観点から、インフラの運用やアプリケーションのパフォーマンスのモニタリングをしたり、広告のクリック率から購買までの一連のユーザ導線を分析しするようなBIでの活用など、Splunkは汎用的に利用可能だという。
 Splunkには「Splunk Enterprise」と「Splunk Analytics for Hadoop」(Hunk)がある。前者は自身にデータを取り込み、インデックス化し時系列データを持つのに対して、後者はHadoopノード内に蓄積されている膨大なデータに対して、クエリーを投げSplunk自身にデータを取り込まずともデータの分析が可能である特長を持つ。

スーパーコンピュータ「京」にも活用されているSplunk

 須田氏はSplunkの国内導入事例をいくつか紹介した。
 三井物産セキュアディレクション株式会社では、セキュリティ機器のみならず、メールやファイルサーバへのアクセスログも対象としてSplunkでログ収集を実施している。内部からの情報漏えいや外部のマルウェア侵入を防ぐ統合ログ監視システムとしてのSplunkの活用だ。従来、シグネチャベースでウイルスを発し原因究明と収束に最大4週間を要していたところ、Splunkを用いる事でインシデント対応の時間を劇的に減らす事に成功した。
 理化学研究所でもSplunkを活用し、スーパーコンピュータ「京」のアプリケーションジョブやHPCサーバ、ネットワーク含めた複数のシステムログを収集しているという。また、Splunkはデータの取り込みと取り込んだあとでの意味付けの容易さから、IT機器以外でも広く活用される。GPSやセンサーデータに対する分析も得意な分野である。
 さらに、米国の事例も取り上げた。salesforce.comでは10万社以上の顧客のパフォーマンスやシステム障害において、サイロ化したログ監視システムを活用していたため問題解析に多くの時間がかかっていたが、Splunkを導入しアプリケーションサーバーとWebサーバー、ネットワークサーバーのログをリアルタイムにインデックス化して、ログ管理を一元化し、必要なダッシュボードを各々がカスタマイズし活用している。パフォーマンスのメトリクスを数値化し、リアルタイムに予測監視するなど、トラブルシューティングの改善が可能になったという。
 Webサイトで車を販売するcars.comでは、Splunkを活用して広告のクリックレートを分析し購買動向の洞察を向上するとともに、Webサイトのコンテンツを管理するためにセキュリティのプロキシやファイアウォールのログを収集。botの監視を行っている。
 無線基地局を提供するプロバイダーのmetoroPCSでは、災害による影響分析にSplunkを活用。また、長距離電話の履歴や料金表を付き合わせて最適な通信会社のルートを相関分析で選択。悪用するユーザーの監視にも役立てられている。
 Cisco SystemsではセキュリティオペレーションセンターでSplunkを導入。ユーザーのアクティビティーから、プロアクティブなセキュリティ脅威のアセスメントや、傾向検知とアラートによるインシデントのフォレンジクスに応用している。

Splunkはビジネスのさまざまなチャレンジを解決するツール

 では、SplunkのROI(投資利益)とは何か。須田氏は、多種多様な変化に迅速にかつ柔軟に対応できる可能性だという。「プロアクティブなモニタリングによる収益の改善や、ユーザーからの問合せに対する迅速な解決により顧客満足度の向上を達成している企業が多く存在する。定常的に分析する事でキャパシティプランに活用したりと コスト削減効果も多く見られるという」
 Splunkは、コミュニティが活性化しており、開発者向けやフリー版を利用するユーザに対してのサポートが充実している。また、ダウンロードから5分後には使い始められる手軽さも特徴だという。
「日立ソリューションズのWebサイトからもダウンロードできるので、まずデータを入れて眺めてみて、どんな場面で役立てられるかをぜひ考えていただきたい」と須田氏は推奨する。

特別講演2

稼働データ活用による昇降機メンテナンスサービスの向上

株式会社日立ビルシステム
技術開発本部 企画部 新事業企画グループ
主任 柴田 康弘 氏

柴田 康弘 氏

 特別講演2では、株式会社日立ビルシステム(以下、日立ビルシステム)の柴田氏が社内に蓄積されているエレベーターの稼働データを活用したサービス向上への取り組みと、Splunkの導入事例について紹介した。

蓄積されたデータをビッグデータの分析技術を活用してサービス改善につなげるためSplunkを導入

 日立ビルシステムは、昇降機(エレベーター・エスカレーター)をはじめとするビル設備のメンテナンスを事業の中心としており、1994年から約20年に渡って遠隔監視システム(ヘリオス?)を活用したメンテナンスサービス(スーパーヘリオスメンテナンス)を提供している。ヘリオスによって収集した稼働データは全てカスタマーセンターに集められ、点検修理計画や障害原因の究明、障害予兆診断、部品寿命判定といった業務に役立てている。この蓄積されるデータ量は年々増加し続けており、新たな活用方法を模索していたという。
「ヘリオスはノンストップの予防保全を目指したメンテナンスシステム。従来の保全サービスに加えて、プラスアルファのサービスや新サービスを検討する中で、ビッグデータの分析技術を活用してサービスの向上や新たなサービスの提供ができないかと考え、これを実証評価する目的で導入したのがSplunkだった」と柴田氏は振り返る。
 では、エレベーターのデータ活用とは何だろうか。柴田氏はその一例として、設計データ(構造、形式、設計寿命など)や稼働データ(使用年数、動作回数、修理実績など)、顧客データ(ビルの用途、場所や地域など)を組み合せてSplunkで可視化し、相関分析することで、部品の寿命評価や利用状況の分析に役立てられる可能性があると説明する。
 Splunk活用のメリットについて、特に柴田氏は、分散した異種データの統合、データの取り出し・可視化の容易化、メール・ブラウザなどでのデータ共有、カスタマイズによる専用ツール化などを挙げる。

繁忙期や閑散期に応じたンテナンスを実行し顧客の経費負担を最小化

 次に、柴田氏は具体的な活用方法について言及した。日立ビルシステムではエレベーターの動いた回数をフロアごとにカウントする起動回数を記録しており、それをSplunkでグラフ化することで、季節による変動が明らかになったという。
「シーズンによって変動がある宿泊施設やウインタースポーツに関連する施設など、繁忙期や閑散期に応じたメンテナンス作業計画を実行することで、お客さまの利便性を損なわずに保全サービスを提供できる可能性がある。」  また、特定フロアの集中利用も可視化し、利用回数の多いフロアに対して部品交換や清掃など、木目細かなメンテナンスを行うことが可能になる。
 さらに、省エネ運転を実施している顧客の存在も明らかになることで、省エネに即した商品の提案やインターネットを使った省エネソリューションの紹介などへの展開が可能となる。
「Splunkによってデータ統合や可視化、情報共有と有識者による分析などが可能になり、お客さまへのより最適な保全サービスの提供、あるいは新サービスの提案などが考えられるようになった。こうした活動を今後も継続していきたい」と柴田氏は語る。

ヘリオスは株式会社日立ビルシステムの登録商標です。

このセミナーに関するお問い合わせ

株式会社日立ソリューションズ Prowise Business Forum 事務局
〒108-8250 東京都港区港南2-18-1 JR品川イーストビル
TEL : 0120-958-545
FAX : 0120-989-097
E-mail : [email protected]

お問い合わせ

ご購入前の商品・サービスに関するご質問・ご相談など

お電話でのお問い合わせ
0120-958-545 受付時間:月曜日から金曜日(祝祭日除く)10時から17時30分
Webからのお問い合わせ
セミナーに関するお問い合わせ
セミナーに関するお問い合わせ

セミナーに関するご質問・ご相談など

お電話でのお問い合わせ 0120-958-545 受付時間:月曜日から金曜日(祝祭日除く)10時から17時30分

Webからのお問い合わせ

セミナーに関するお問い合わせ

日立ソリューションズ 論より証言