リスク許容度とモデル パフォーマンス

ユーザーの行動を予測する際には常に不確実性が存在し、そのトレードオフを考慮する必要があります。全体的な精度を高めるために予測グループに含めるユーザーを少なくするか、または全体的な精度が低くてもより多くのユーザーを含めるかを決定する必要があります。

リスク許容度

Firebase Predictions では、次の 2 つの指標に基づいてリスク許容度を定義します。

  • 予測の真陽性率は、あるアクションを行うと予測されたユーザーのうち、そのアクションを実際に行なった(予測が成功した)ユーザーの割合です(たとえば、購入アクションを行うと Firebase が予測し、実際に購入したユーザーの割合)。
  • 予測の偽陽性率は、あるアクションを行うと予測されたユーザーのうち、そのアクションを行わなかった(予測が間違っていた)ユーザーの割合です(たとえば、購入アクションを行うと Firebase が予測したが、実際には購入しなかったユーザーの割合)。

予測に関するリスク許容度を選択することで、ユーザーのターゲティングでどの程度の不確実性を許容するかを Predictions に指示します。それぞれのリスク許容度では、偽陽性率がある程度の最大しきい値を超えないことが保証されています。偽陽性率のしきい値が固定されている場合、Predictions では、偽陽性率のしきい値を超えることなく真陽性率を最大化するように、可能な限り多くのユーザーをターゲットにします。達成可能な最大真陽性率が最小しきい値を満たさない場合、リスク プロファイルは無効になり、そのリスク プロファイルを使用するユーザーのターゲティングは行われなくなります。このように、リスク プロファイルは、適用するターゲティングで確実性に関するしきい値が存在するようにするメカニズムを提供し、このしきい値が満たされない場合はターゲティングが無効になります。

予測に基づいてユーザーのターゲティングを行う際には、リスク許容度を選択します。予測の種類と、利用可能なアナリティクス イベント数に応じて、次のレベルから 1 つまたは複数を選択できます。

リスク許容度
  • 予測精度を犠牲にして、大半のユーザーをターゲットにする
  • 偽陽性率 20% 以下を保証する
  • 真陽性率が 45% を下回ると無効になる
  • 正しくターゲットにされるユーザー 10 人につき、誤ってターゲットにされるユーザーは最大 4.44 人(10 × 20% ÷ 45%)*
  • ターゲットにするユーザーを減らし、精度を高める
  • 偽陽性率 10% 以下を保証する
  • 真陽性率が 35% を下回ると無効になる
  • 正しくターゲットにされるユーザー 10 人につき、誤ってターゲットにされるユーザーは最大 2.86 人(10 × 10% ÷ 35%)*
  • ターゲットにするユーザーを最小限にして、精度を最高にする
  • 偽陽性率 5% 以下を保証する
  • 真陽性率が 25% を下回ると無効になる
  • 正しくターゲットにされるユーザー 10 人につき、誤ってターゲットにされるユーザーは最大 2 人(10 × 5% ÷ 25%)*

*全ユーザーのうち実際の真陽性率と偽陽性率は同じであると仮定しています。偽陽性ユーザーの数が真陽性ユーザーの X 倍である場合は、誤ってターゲットにされるユーザーの最大数に X を掛けます。

ユーザー数が 35,000 人のアプリについて、数日後にどのくらいのユーザーがアプリの使用を止めるか(チャーン)を予測してみます。これにより、アプリを引き続き使用してもらうためのなんらかの対策を実施できるようになります。

下の図では、それぞれの顔は 1,000 人のユーザーを表しています。満足しているグループは緑、不満を持っているグループは赤で示されています。

リスク許容度: 高

リスク許容度を「高」にした場合、Predictions によって下の図のようなグループが作成されます。このグループには、不満を持っている 13,000 人のユーザーのうち 10,000 人が含まれています。したがって、この予測の真陽性率は約 76.9% です。リスク許容度「高」が選択されていて、この値が 45% 未満になった場合、真陽性率が改善されるまで予測は無効になります。

このグループには実際にアプリに満足している 4,000 人のユーザーも含まれています。これらのユーザーは再エンゲージメント戦略のターゲットにしないほうがよいでしょう。満足していた 22,000 人のユーザーのうち 4,000 人がチャーンすると誤って予測されたため、この予測の偽陽性率は約 18.18% であり、「高」リスク許容度プロファイルによって保証される最大偽陽性率 20% を下回っています。

sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied
sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied
sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied

リスク許容度: 低

一方、下の図はリスク許容度「低」で作成されたグループの様子を示しています。このグループでは、偽陽性のユーザー数は先ほどよりも少なく、1,000 人しかいません。しかし、不満を持つユーザー数も「高」リスク許容度グループより 4,000 人減少しています。この予測の真陽性率は約 46.15% で、偽陽性率は約 4.55% です。

sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied
sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied
sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied

リスク許容度がパフォーマンスにどの程度影響するかを確認する

Firebase コンソールの [Predictions] ページでカードを使用すると、さまざまなリスク許容度での予測のパフォーマンスがどの程度良好であるかを確認できます。

このグラフは、過去 2 週間のデータに対する、予測モデルの真陽性率を示しています。グラフ上の各データポイントは、ホールドアウト データセットに対してその日のモデルのパフォーマンスがどの程度良好であったかを示しています(パフォーマンス統計の計算方法をご覧ください)。真陽性率が必須のしきい値を下回ったすべての日で、グラフは赤色で表示されます。そのような日では、Firebase は予測に基づいたユーザー ターゲティングを無効にします。

過去 14 日間のうちモデルが無効になっていた日があった場合、検討事項としては、偽陽性率を高める可能性があるとしても、リスク許容度を上げ、より多くのユーザーをターゲットにして無効の日を避けることが考えられます。[リスク許容度] スライダーの位置を移動すると、さまざまなリスク許容度がモデルのパフォーマンスにどのように影響するかを確認できます。

このようにすると、グラフでは、選択したリスク許容度で毎日のモデルのパフォーマンスがどの程度良好であったかが示されます。上記の例では、リスク許容度を「中」から「高」に上げると、モデルの真陽性率が過去 2 週間全体で 45% のしきい値を順調に継続して上回っていることが確認できます(ただし、偽陽性の許容度も大きくなっています)。

ユーザーリーチと精度の間で満足できるバランスを実現するリスク許容度を見つけたら、Remote Config、A/B テスト、または Notifications Composer でユーザーをターゲットにする際にそのリスク許容度を選択します。

パフォーマンス統計の計算方法

ラベル付け

多くの機械学習タスクと同様に、Predictions モデルのトレーニングは「教師あり学習」タスクです。つまり、モデルのトレーニングに使用するすべてのユーザーには、「チャーンする」、「購入しない」などのラベルを割り当てる必要があります。ユーザーにラベルを付けるために、Predictions はアプリの 28 日間アクティブなユーザーをすべて取得し、それらのユーザーのデータからイベントの最後の 7 日間を削除します。この期間をラベル期間と呼びます。Firebase Predictions はラベル期間のイベントを使用してユーザーにラベルを割り当て、この 7 日間より前のユーザーのイベント(トレーニング期間のイベント)を使用してモデルをトレーニングします。

そのため、本質的には、モデルは常に 7 日前のデータでトレーニングされています。

ホールドアウト データとトレーニング データ

すべてのデータがトレーニングに直接使用されるわけではありません。教師あり学習タスクでは一般的ですが、Predictions ではデータの 20% をホールドアウト データとして確保し、データの残り 80% のみを使用してモデルをトレーニングします。続いて、モデルのパフォーマンスを評価するために、トレーニング期間のデータに基づいてホールドアウト セットのユーザーに対して予測が生成されます。予測は、ラベル期間から生成されたラベルに基づいて、各ユーザーの実際の結果と比較されます。

Firebase コンソールに表示されるすべての統計は、ホールドアウト データに対してモデルを評価した結果です。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。