gleasin公式ブログ

実践に使える!売上予測モデルの説明変数の選び方とは?

作成者: 酒井 嘉昭|2020/03/24 5:55:02

機械学習のプログラミング本が書店に多く並ぶようになり、インターネットにも機械学習に関するたくさんの情報があふれています。しかし、機械学習のプログラミング方法を知っても、いざ売上予測をしようとした際に「説明変数(モデル構築に利用するデータ)は何にすればよいの?」という疑問がでてきます。本記事では、売上予測モデル構築で実践的に使える説明変数の選び方を解説します。

説明変数は空間スケールで整理しよう

前述の通り、世の中の機械学習に関する情報は必ずしも売上予測のためのものではありません。機械学習は様々な用途に使える仕組みであり、売上予測をしたいのであれば、そのための準備はこちらでしてあげなくてはなりません

その際に一番の問題となるのが、説明変数の選び方となりますが、ジオマーケティングでは説明変数を空間スケールで整理することをお勧めしています

いざ売上予測をしようという時、目に入りやすいオペレーションや店舗のスペックについつい意識が向きがちになりますが、売上が立地や商圏が大きく左右されることは店舗開発の経験者にはご理解いただけると思います。

空間スケールでデータを整理することで、このような抜け漏れを回避することができます

売上はどのような要因に影響を受けているでしょうか?利用するお客さんが「どこから、どのような手段でやってきて、どのように店舗を利用して、どのようなことで満足感を得るのか」をイメージしながら、説明変数を選んでみてください。

説明変数として使うデータの入手方法

このようにモデルに投入する説明変数を整理した後は、それを表現するデータを入手していくことになります。

まず、商圏や立地に関するデータは、政府や地方自治体が発表する統計を利用したり、データ提供ベンダーから購入したりすることが一般的です。参考までに、政府の統計データはe-Stat国土数値情報ダウンロードサービスから取得可能です。

また、居住者特性を表すジオデモグラフィックスデータ(弊社のGeodemo®︎もその一種です)は、商圏内の居住者の量と質を少ない変数の数で表現できるため、売上予測の説明変数として向いています。数百ある国勢調査の項目を全て説明変数に投入するのは現実的ではありませんので、このように抽象化されたデータを利用することは、予測精度向上の観点からもその後のモデル利用の観点からもおすすめです。

[参考]消費者心理を読み解く商圏分析!ジオデモグラフィックスとは?

一方でオペレーションや店舗に関するデータは、自前でデータを整備する必要があります。特にオペレーションは数値化が難しい要素も多く、データ整備に現地調査などのコストがかかる場合もあります。例えば、店舗の視認性が売上に影響すると考えた場合に、「視認性を5段階で評価する基準を定め、全店舗に赴いて何点かを採点する」といった作業が必要となります。

ここに効果に見合わないコストがかかってしまう場合は、整備するデータを取捨選択することになります。まずは整備にコストがかからない変数でざっくりとしたモデルを作り、その後いくつかのステップにわけて、さらに精度をあげるための変数を検討していくようなアプローチも有効です。

まとめ

機械学習を使って売上予測をするためには、お客さんを観察し、行動の背景を理解することが大事です。空間スケールという考え方はその理解の手助けとなり、説明変数の選定における抜け漏れを防ぐことができます

また、データの整備はスケールが小さくなればなるほど、コストがかかる傾向があります。費用対効果を考えながら、また、いくつかのステップにわけながら、データを整備していくことが重要です。

ご不明な点やお困りごとはジオマーケティングにご相談ください

売上予測モデルは用途によって、利用する説明変数や求める精度が変わってきます。

ジオマーケティングのコンサルティングサービスでは、実際の説明変数の選定やデータ整備についてディスカッションを行いながら、オーダーメイドのモデル作成を実施します。

ご相談はオンラインでいつでもお申し込みいただけますので、お気軽にご相談ください。

ショッピングセンター出店時の売上予測を無償で提供しています

スマートなSC出店を支援するウェブサービス「gleasin for tenant」では、機械学習による売上予測を無償で提供しています。SCに出店している既存店舗の売上データをシステムにお預けいただくと、全国のSCに出店した場合の売上予測を算出いたします。