店舗開発における売上予測に、AIの要素技術である「機械学習」を利用する企業が近年増えてきました。その一方で、チェーン店の開発の現場では現在でも「重回帰分析」で売上予測モデルを構築するのが最もポピュラーな手法として普及しています。
本記事では「重回帰モデル」と「機械学習モデル」の両者の違いについてまとめたいと思います。なお、一口に機械学習と言っても様々なアルゴリズム(計算方法)がありますが、本記事では売上予測で一般的に使われるランダムフォレストというアルゴリズムを念頭に記述します。
ベースとなっている考え方は共通だが、アプローチが異なる
そもそも、重回帰分析も機械学習も、「売上」と「売上に影響する要因」の関係をモデル化する、言い換えると「観測されたデータに基づいてルールをつくる」という点で、ベースとなる考え方は共通です。
[参考]店舗開発担当者がAIで売上予測を実施する4つのメリット
しかし、モデルの作り方のアプローチが大きく異なります。
まず、重回帰分析を簡単に説明すると、予測誤差が最小となる"方程式"を作成することを目標とします。ここで言う方程式は例えではなく、数学で習った通りの「y=ax+b」のような数式のことを指しています。この方程式を使って予測を行います。
一方で、機械学習は大量の場合分けを行ない、どのような条件がそろうとどのくらいの売上が期待できるかをモデル化します。「条件Aと条件Bに条件Cが揃えば売上は◯◯円だが、条件Cが揃わなければ△△円」といった場合分けを大量に行い、最終的にその場合分けの結果を組み合わせて予測することになります。大量の場合分けを組み合わせることになるので、方程式のように人間に一目で見える形にはなりません。
このようなアプローチの違いがありますが、実際のところ重回帰分析は売上予測があまり得意ではありません。仮に同じデータを利用しても、機械学習モデルと重回帰モデルでは予測性能に大きな差が出ます。この原因は大きくわけて2つあります。
- 利用するデータの性質
- 重回帰分析アルゴリズムの限界
それぞれを順番に見ていきます。
店舗開発で利用できる観測データはバラつき、誤差が多い
まず、利用するデータの性質ですが、工場や実験室で繰り返し条件を変えながら測定できるデータと、社会現象のように再現性の乏しい環境で観測されるデータではその品質が大きく異なります。売上予測で利用するデータは社会科学に属するデータが大半ですので、データの欠損やバラつきが大きいという特徴があります。
前述の通り重回帰分析は方程式を作ることを目指すので、基本的にデータの欠損はNGとなります。また、全てのデータを正しいものとして数式を作ろうとするので、データのバラつきにも強く影響を受けます。
一方で、機械学習では大量の場合分けの中で欠損やバラつきを評価することになるので、欠損データやバラつきの大きいデータは無視するような挙動となります。
重回帰分析は利用できるデータの数が限られる
次に重回帰分析アルゴリスムそのものの限界についてですが、データの種類の数が学習する店舗数に依存してしまうという性質があります。詳細は割愛しますが、使えるデータの種類は最大で"店舗数-2"となるので、既存店が10店舗であれば使えるデータは最大8種類となります。つまり、展開している店舗が少ない場合は、売上を十分に説明できるだけのデータを投入できないことになります。
一方で、機械学習にはデータの種類の数に制約はありません。必要以上に大量の種類のデータを投入するとモデルの精度が低くなる可能性はありますが、過不足がないように調整することで問題は回避できます。
まとめ
このように、重回帰分析と機械学習はベースとなる考え方は共通ですが、そのアプローチが大きく異なります。Excelでも手軽に使えることから重回帰分析は大きく広まりましたが、機械学習モデルの予測精度や柔軟性では重回帰分析を圧倒的に凌駕していると言えます。
コンピュータの性能が上がったため、機械学習で売上予測を実施するハードルは低くなってきています。「重回帰モデルではうまく予測できない」と考えていらっしゃる店舗開発担当の方は、機械学習モデルの導入を検討されてみてはいかがでしょうか?
自社のブランドに最適な立地を機械学習を使って探してみましょう
店舗開発DXプラットフォーム「gleasin」は、機械学習による類似立地探索機能を提供しています。既存店舗の出店立地の特性を居住者ライフスタイルデータGedeomoとGPSデータを使って評価してます。全国50万箇所店舗立地の商圏と既存店の成功立地と比較することによって出店アセスメント、物件のターゲティングやスクリーニングに使えます。
無料トライアルで類似立地を日本全国50万か所から探してみましょう。gleasinの詳細はこちら。