• データ主導の人材開発・組織開発

【第6回】データ分析・活用の全体像

『企業と人材』誌(産労総合研究所発行)に、2019年7月号から2020年6月号までの予定で『人材開発部門のデータ活用』を連載しています。誌面だと小さくなる図表を改めて掲載する他、誌面には掲載しきれない参考文献や参考情報を当ウェブサイトにて紹介します(毎月5日の発行日に合わせて公開)。連載本文PDF

 

【図1】 データ分析のステップ(具体から抽象へ)

【図2】 抽象と具体の組み合わせ


【データ集計・分析の全体像把握の視点】

今回は、調査結果データの集計・分析の全体像を示しています。データ分析の全体像を踏まえることは重要です。データ分析結果は、ストーリー立てて提示しなければ、納得感や説得力は得られません。「○○分析を行ってみたところこんな結果が得られました!」というプレゼンの仕方ではだめなのです。

統計分析ソフトを使うと、メニューに沿って設定を行ってボタンを押すだけで高度な分析を行うことができるため、その結果の提示を急ぎがちです。特に、多くの対象を一つの絵にまとまるように抽象化する多変量解析の「因子分析」や「クラスター分析」は魅力的なため、そうしがちです。私自身も、統計分析ソフトを使い始めた最初の頃は、調子に乗って「格好の良いプレゼン用の絵」を作りがちでしたが、格好は良いもののそれ自体は施策立案のために大して役立たず、何も加工を加えていない生の「自由記述回答」の方がよほど役立った、ということもありがちでした。

様々な分析結果をストーリー立てて提示するためには、自らが用いる分析手法の全体像を体系的に把握しておく必要があります。

本連載では、「『シンプルなデータ加工』から『高度なデータ加工へ』」また「『具体』から『抽象』へ」と歩みを進める、という視点で体系化していますが、その他にも下記のような視点があります。分野や分析の対象によって適した視点は異なり、人材開発・組織開発における調査データ分析に適した視点を意識する必要があります。複数の視点を使い分けることも時に必要です。

  • 視点1) 『現状の記述』から『因果関係の分析』から『予測』へ ── まず現状を把握した上で、事象間の因果関係を分析し、その因果関係メカニズムを踏まえて今後の予測を行う、という視点です。「現状の把握」「因果関係の分析」「予測」の順番で高度になりますが、そう言い切れない場合もあります。例えば、単なる現状の記述であっても、対象の規模が大きい場合、例えば「日本国全体の労働統計」といった場合には、(厚生労働省の不適切統計問題で話題になったように)サンプリングの方法など高度な議論が必要になります。また、予測のためには因果関係の理解が前提になるという見地からは、予測の方が因果関係の分析よりも高度であると言えるものの、最近のAIにおいては、例えば病気を予測するよりもその原因(因果関係)を見い出す方が難易度が高いとも言われます。
  • 視点2) 『仮説の発見』から『意思決定』へ ── 仮説の発見のためにまずデータの全体を見渡し、多くの変数を分類・整理して物事を単純化して見通しをつけ、その上で変数間の因果関係を明らかにし、管理・統制すべき変数を特定して、何をすべきか意思決定する、という視点です。この視点では、最初から高度な統計手法である多変量解析から入ります。例えば、調査の回答データがあがってきたら、まず「因子分析」と「クラスター分析」を行い、設問項目と対象者がどのように分類されるか見てみるのです。そうすることで、問題領域と対象者層をどのように分類し、どの分類領域に関して重点的に検討を行ったら良さそうか、ということが見えてきます。その上で、細かな設問項目別・属性別の検討に入っていきます。たしかに、全体が見通しにくい時はそうする時もあります。
  • 視点3) 『1変量』から『2変量』から『多変量』へ ── この視点では、最初は項目一つずつ(例えば「会社満足度」)に着目して、その平均やバラツキを吟味します。次の段階では、その項目を他の項目との関連で(例えば「上司満足度」が高まると「会社満足度」がどう変わるかという見地から)吟味します。さらに次の段階では、全ての変数を組み合わせて(例えば「上司」「職場」・・・といった多くの項目がどのように組み合わさって「会社満足度」につながるかという見地から)吟味します。扱う変量が多くなるほど分析は高度になると言えます。ただし、一つの項目を扱う場合であっても、その精度を追求する場合には、その限りでは(例えば「有意差の検定」等の)高度な議論が必要になります。(なお、「『一つのデータの分析』から『出所が異なるデータを組み合わせた分析』へ」という視点も、同様の視点と言えます。)

本連載のStep1~Step7の各ステップごとの参考文献は次回以降に改めて紹介しますが、今回は、全体像を描くための参考資料を紹介します。もっとも、「高度な統計手法」に絞った「多変量解析」の教科書といったものは多々あっても、基本的な集計から高度な分析に至るプロセス全体を通しての全体像を体系的に整理したものはなかなか見当たらないのです。「グラフの種類」や「検定の種類」や「多変量解析の種類」を列挙する、手法のカタログや辞典的なものになりがちです。そうなっている一つの理由は、様々なアンケートの形式が想定されるため、それに応じた様々な集計・分析の仕方を想定しなければならず、そうすると全工程を通したストーリー立てが難しく、道具箱を提示する形をとらざるをえないことにあるでしょう。(逆に言えば、設問形式を「5段階のリッカート尺度」のように決めることにより、集計・分析の一連の流れを定めることができるメリットが出てきます。)

とはいえ、「マーケティング調査」や「社会調査」を想定した「アンケート調査と統計解析」の参考書に、調査票の作成から回答データの収集、そして基本的な集計から多変量解析までひととおりカバーする定評ある参考書がありますので、それらを紹介します。これらの詳しい参考書に書かれている内容全てが必要になることはまずありませんが、知識としては知っておき、何を適用するか/しないか、それはなぜか、ということを説明できることが望ましいでしょう。

次の書籍は、統計に関わるサービスに長年従事してきた著者が力を注ぎ込んだことが窺える、辞書的でありながら、体系にも工夫が凝らされた、この分野では最も優れた参考書と思われます。体系としては、「集計→検定→一つの変数→2つの変数→多変数(予測)→多変数(判別)→潜在変数」という集計・分析の流れに沿っています。いたずらに高度な多変量解析手法を用いずに集計のステップで価値を生み出す「クロス集計」のポイントにも触れています。一方、多変量解析手法の事例を用いた解説は、数式を通さずに理解できることに配慮した極めて懇切丁寧なものです。

菅民郎 『実例でよくわかるアンケート調査と統計解析』

次の書籍は、アンケートに基づくマーケティング調査のマニュアルとなる書籍であり、体系は、マーケティング調査の工程の順序を反映しています。(第3回でも参考文献として挙げました。)

酒井隆 『図解 アンケート調査と統計解析がわかる本』

次の書籍は、体系的というよりは辞書的なものですが、「社会調査士のカリキュラムに対応」とのことです。

竹内光悦、元治恵子、山口和範 『図解入門ビジネス アンケート調査とデータ解析の仕組みがよーくわかる本』

人材開発分野における類似のものを探すとすれば、次の書籍が、データの整備から高度な統計分析まで触れています。

入江崇介 『人事のためのデータサイエンス』

体系化という点ではPDCAサイクルに触れられる程度で、個別の統計手法の解説が中心となっており統計手法の選び方にも(「差の検討」を「差の有意性のt検定」や「分散分析」として難しく扱うことなど)本稿の立場からは疑問はありますが、「高業績者の特徴把握」「研修効果測定」「離職リスク把握」「活躍人材予測」「管理職行動の構造」といった人材開発の現場で直面することが多いテーマの分析イメージが挙げられており、出版社のサイトからサンプルデータをダウンロードすることもできますので、特にグループワークを交えて学習する際に有益と思います。


【学習ツールとしての統計ソフト】

Step5の後半以降の「高度な統計分析」のための統計ソフトとして、株式会社社会情報サービスの『エクセル統計』をお勧めしていますが、同ソフトは統計手法を学ぶためのツールとしても有益です。無料体験版に付属する分析例ファイルを通じて、Excelのメニューに組み込まれた実際のソフトのメニューや分析内容を学ぶことができます。実際に自分の手元のデータを操作してみたいとなった時に初めてライセンスキーを購入することで、そのまま再度インストールすることなく、手元のデータの操作を始めることができます。

株式会社社会情報サービス BellCurve 『エクセル統計』 ウェブサイト

また、同社が主催するウェブサイト(統計WEB)では、統計手法についての正確でわかりやすい解説がなされており、かつ、疑問が生じたならばExcelファイルをダウンロードして計算方法等の細部を確認できます。(例えば、重回帰分析を学ぶ過程で「重相関係数とは何か」と疑問に思ったら、重相関係数の計算例ファイルをダウンロードして確認できます。)統計手法を学ぶだけであれば、参考書の替わりに同ウェブサイトで学ぶことで十分かもしれません。

BellCurve 統計WEB

(なお、無料で入手できる統計ソフトについては、第1回の参考文献で挙げています。)


【Excel使い倒しの展望を大きく広げるモダンExcel】

本連載では、できるだけ「Excelを使い倒す」ことを推奨しています。さて、とはいっても、人材開発部門のデータ分析専門家を目指す場合、「Excelの達人」を自認できていれば、基礎スキルとしては十分でしょうか?

調査データを扱うだけであれば、通常はデータベースやプログラミング言語を導入しなくても、従来のExcelで対応できます。しかし実は従来のExcelには限界もあり、それが不便さや、将来の効率化を考える上での限界を生じさせることも事実です。それは次の諸点ですが、なるほど確かにそうだ、と気づかれる方もいらっしゃるでしょう。

  • 1)データ量の限界 ── Excelでは100万件までのデータを扱うことができます。一見十分すぎるようですが、実は、データ処理の過程も含めるとそうではないのです。例えば、多面評価において、設問項目数30問、被評価者1000人、被評価者一人あたりの評価者が10人とすると、データ量は30万件になります。大企業であればすぐに100万件を超えてしまいます。あるいは、多面評価のやり方を応用して「スキル調査」を行って社員のスキルデータベースを作るような場合、専門スキルも含めたスキル項目数は一企業で1000項目には容易になりえるので、社員数1000人であれば、データの容れ物としては1000人×1000項目=100万行欲しいのです。そして、経年で比較したり、自己認識と上司認識を比較したり、あるいは「スキル項目別×部門別×階層別」に設定した基準値と比較・分析したりするとなると、(回避の仕方を工夫できるとしても)さらにそれを倍々した行数が必要になったりします。
  • 2)データ結合の限界 ── Excelによるデータ集計・分析のポイントは、「全てのデータと、分析のための必要情報とが含まれた一つの元帳シート」を作ることです。調査データの集計・分析であれば、分析したい内容に応じて、回答データに対して、社員マスタ上の社員属性情報、人事考課情報、業績情報、勤怠情報、他の調査結果情報などを結合させて、「分析用元帳」を作るのです。データを結合させる際には、vlookup関数が使われます。しかしこのような分析用元帳は、関数設定時にミスが起こるリスクを孕み、容量も大きくシートを維持するだけで重い計算が必要になるシートになりがちです。関数が正しく設定されているかどうかのチェックに神経を遣ったり、何十メガもの容量になったファイルを開くだけで何分も待ち、ファイルが開いたと思ったら今度は大々的に関数の「再計算」が始まってしまい手がつけられないことに閉口したり、といった経験を持つ人もいらっしゃるでしょう。
  • 3)定型化の限界 ── 「分析用元帳」に対して関数やピボットテーブルや時にはマクロを適用し、効果的な分析レポートが出来上がったならば、それを仕組み化することで、次回以降は継続性のある調査・分析業務を生産性高く遂行することができます。ただし、それがExcel上の仕組みの場合には、「新しいデータや情報を前回の仕組みの上にコピー&ペーストで貼り付け」、「関数設定範囲や集計範囲を再設定する」といったことをしなければなりません。手間であるだけでなく、ミスが介在するリスクが再度生じます。

これらを解決するための手段として、Excelに「モダンExcel」の機能を取り込むことを提案します。Excelのバージョン・エディションにも拠りますが、若干の設定の変更によりモダンExcelのメニューが現れ、Excelの限界が外れます。従来のExcel環境を活かしたまま、かつプログラミングの世界に足を踏み入れることなく、大きなデータベースを扱ったり、プログラミングに相当することができるようになります。いったん分析ロジックを確立したあとは、データがアップデートされても更新ボタンのみで再集計・再分析を完了させることができる世界が開かれます。

実際にモダンExcelを扱ってみると、大きなデータを扱う際の処理速度など見通せないところもあるとはいえ、そこに示されているのは、あるべき姿であることには疑いありません。とりわけ大きな飛躍は、データを「データモデル」化することによってなされます。これから調査結果データの集計・分析・レポート化を始める際には、データ量の如何に関わらず、データはデータモデルとして読み込み、データの結合もデータモデル上で行うことを習慣づけた上で、モダンExcelの機能であるパワーピボットの機能を活かし、集計・分析・レポートの定型化を進めていくのが良いでしょう。

新しい機能だけに、モダンExcelに関する参考書の数はまだ少ないのですが、次の書籍は極めて優れています。販売管理事例のサンプルデータを出版社サイトからダウンロードし、書籍の指示に沿って手を動かして加工してみることで、しっかり理解できるようになっています。

鷹尾祥 『Excelパワーピボット 7つのステップでデータ集計・分析を「自動化」する本』