問題解決のためのデータ分析応講座

「問題解決のためのデータ分析応用講座」という本を読みました。

データ分析応用講座ということですが、想定読者はデータ分析を本業としている方やそういう存在を目指している方向けではありません。
本業は別にあるけども、データ分析を行ってみたい、取り入れてみたい、はたまた、会社にデータ分析に注力してもらいたい、といった方向けです。
従って、本にも書かれていますが、分析時の厳密性は重要視されていません。

とはいえ、単に○○分析の方法の手順を示すだけ、というものではありません。
自分の業務にデータ分析を活かすための考え方の手順から解説されています。
そもそも分析するということを比較する、ということから説明がなされていきます。
そして、こういったデータから、こういう分析ができます、ということではなく、自分の業務の課題から考え出し、そこからデータ分析を実行していく、という形で解説されています。
その際も分析によるインパクトと分析の容易性の2軸での考え方などがあり、今まで分析に自分で取り組んだことがない人でも一つの指針が提示されていて実際に取り組みやすくなっていると思います。

分析方法自体は回帰分析を主たる分析として説明されていますので、他の分析方法が知りたい、という方は満足できないでしょう。
その回帰分析もエクセルの画面のキャプチャを掲載し、関数などもわかるようになっています。

回帰分析といえば、多重共線性(マルチコ=マルチコリニアリティ:multicollinearity)の解説が付きものですが、大抵はこの問題の存在を提示するくらいで回避方法についてはあまり書かれていないことが多いと思いますが、この本ではその方法も記載されており、エクセルでの方法も載っています。
エクセルでその方法の一つ、Ridge回帰という方法も画面キャプチャと共に説明されています。ただ、このRidge回帰の設定でのパラメーターの詳しい説明がなく、今回はこういう設定です、で進むのでこの点は自分で調べないといけませんが。

f:id:yu_ru:20201207230009j:plain

こうした方法で行った分析の精度評価のためにホールドアウト法やクロスバリデーション法、時間軸を考慮したホールドアウト法といったものの説明もあります。

私はこういう分野に詳しくないですし、たくさん関連本を読んだわけではありませんが、自分が読んできた本には無かったり、簡単に触れられているだけのことが説明されていて良い本だと思いました。
マルチコの問題を知らされても、ではどうするの?と放っておかれたり、データセットをどのように作ればよいのかよくわからなかったり。ま、ネットで調べろ!と怒られそうですが、何にせよ一冊の本でわかるので都合が良いです。
ただ、この本の説明は色々ある内の一部でしょうから、これで完璧、ということではないと思います。
その点を踏まえて利用して、これを踏み台に深めていくなりすれば良いのではと感じました。
また、こうした方法で成功体験を積み重ねることで、社内にデータ分析の有効性をアピールし、社内システムを向上させたり、人を雇うなり、外部の専門の協力会社を利用するなり、進化させることに役立つように思います。
数式もほぼ出てこないので、数式アレルギーのある人でも最後まで読めるのではと思います。