콘솔로 이동

위험 허용 범위 및 모델 성능

사용자 행동을 예측할 때는 어느 정도의 불확실성을 감안하여 절충할 필요가 있습니다. 도달 사용자를 줄이면서 전반적인 정확도를 높일지, 아니면 전반적인 정확도는 낮아지더라도 도달 사용자를 늘릴지를 결정해야 합니다. 이러한 절충은 고유한 사용 사례에 따라 결정됩니다.

위험 허용 범위 수준

Firebase 예측은 다음 두 가지 통계를 기준으로 위험 허용 범위 수준을 정의합니다.

  • 예측의 참양성률은 작업을 수행할 것으로 예측했는데 실제로 해당 작업을 수행한 사용자의 비율로서 올바르게 예측된 비율입니다. 예를 들어 상품을 구매할 것으로 Firebase가 사전에 예측했는데 실제로 구매를 한 사용자의 비율입니다.
  • 예측의 거짓양성률은 작업을 수행할 것이라고 예측했는데 실제로 해당 작업을 수행하지 않은 사용자의 비율로서 잘못 예측된 비율입니다. 예를 들어, Firebase에서 구매할 것으로 예측했는데, 실제로 구매를 하지 않은 사용자의 비율입니다.

예측에 사용할 위험 허용 범위 수준을 선택하여 사용자를 타겟팅할 때 어느 정도의 불확실성을 허용할지 지정할 수 있습니다. 각 위험 허용 범위 수준으로 거짓양성률이 특정 최대 임계값을 초과하지 않을 것을 보장합니다. 고정 거짓양성 임계값의 경우 예측은 거짓양성 임계값을 초과하지 않고 참양성률을 최대화하기 위해 가능한 많은 사용자를 타겟팅합니다. 최대로 얻을 수 있는 참양성률이 최소 임계값을 충족하지 못하면 위험 프로필은 사용이 중지되고 해당 위험 프로필로 사용자를 타겟팅할 수 없습니다. 이러한 방식으로 위험 프로필은 적용되는 타겟팅이 충족되지 않으면 타겟팅을 중지하는 확실성 임계값을 갖도록 하는 메커니즘을 제공합니다.

예측을 기반으로 사용자를 타겟팅할 때 위험 허용 범위 수준을 선택합니다. 예측 유형 및 사용 가능한 애널리틱스 이벤트 수에 따라 다음 수준 중 하나 이상을 선택할 수 있습니다.

위험 허용 범위 수준
높음
  • 대부분의 사용자를 타겟팅(예측 정확도 저하)
  • 최대 20%의 거짓양성률 보장
  • 참양성률이 45% 아래면 비활성화
  • 올바르게 타겟팅된 사용자 10명당 최대 4.44명(10 × 20% ÷ 45%)의 사용자가 잘못 타겟팅됨*
중간
  • 정확도를 높이면서 사용자 수를 줄여 타겟팅
  • 최대 10%의 거짓양성률 보장
  • 참양성률이 35% 아래면 비활성화
  • 올바르게 타겟팅된 사용자 10명당 최대 2.86명(10 × 10% ÷ 35%)의 사용자가 잘못 타겟팅됨*
낮음
  • 가장 정확도가 높으며 가장 적은 수의 사용자를 타겟팅
  • 최대 5%의 거짓양성률 보장
  • 참양성률이 25% 아래면 비활성화
  • 올바르게 타겟팅된 사용자 10명당 최대 2명(10 × 5% ÷ 25%)의 사용자가 잘못 타겟팅됨*

*사용자 중 실제 양성 사례와 음성 사례가 같다고 가정합니다. 음성 사례가 양성 사례보다 X배 많은 경우 거짓양성 수에 X를 곱합니다.

사용자의 지속적인 앱 사용을 유도하는 조치를 취할 수 있도록 사용자 35,000명을 보유한 앱에서 앞으로 며칠간 앱 사용을 중지하거나 앱을 제거할 사용자를 예측하려고 한다고 가정해 보겠습니다.

아래 그림에서 각 얼굴은 사용자 1,000명을 나타내며 만족도가 높아 앱 제거 가능성이 낮은 그룹은 녹색으로, 만족도가 낮아 앱 제거가 예상되는 그룹은 노란색으로 표시되어 있습니다.

높은 위험 허용 범위

높은 위험 허용 범위를 사용하면 예측에서 아래 그림에 나온 그룹과 같이 총 13,000명 중 만족도가 낮은 사용자가 10,000명인 그룹을 만들 수 있습니다. 따라서 이 예측의 참양성률은 약 76.9%입니다. 높은 위험 허용 범위를 선택한 경우 이 값이 45% 아래로 떨어지면 참양성률이 개선될 때까지 예측이 비활성화됩니다.

이 그룹에는 재참여 전략에 타겟팅하지 않을 앱에 대한 만족도가 실제로 높은 사용자 4,000명도 그룹에 포함됩니다. 22,000명의 사용자 중 만족도가 높은 4,000명은 앱을 제거할 것으로 잘못 예측되었기 때문에 이 예측의 거짓양성률은 약 18.18%로, 이는 높은 위험 허용 범위 프로필에서 보장하는 최대 거짓양성률인 20%보다 아래입니다.

sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied
sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied
sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied

낮은 위험 허용 범위

반면, 아래 그림은 낮은 위험 허용 범위를 사용하여 만든 그룹의 예를 보여줍니다. 이 그룹에 거짓양성이 단 1,000명으로 더 적게 포함되어 있지만 만족도가 낮은 사용자도 높은 위험 허용 범위 그룹보다 4,000명 더 적게 포함되어 있습니다. 이 예측의 참양성률은 약 46.15%이고 거짓양성률은 약 4.55%입니다.

sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied
sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied
sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied

위험 허용 범위가 성능에 미치는 영향 알아보기

예측의 품질은 매일 바뀔 수 있기 때문에 특정 위험 프로필을 고려한 예측이 하루는 활성화되지만 다음 날은 비활성화될 수도 있습니다. 이러한 이유로 사용자를 타겟팅하는 데 사용할 위험 프로필을 결정할 때 예측의 위험 프로필이 신뢰도에 미치는 영향을 이해하는 것이 중요합니다.

예를 들어, 특정 위험 프로필을 기반으로 원격 구성 매개변수를 설정한 경우 예측이 비활성화된 날에는 원격 구성이 매개변수에 값을 할당하지 않으며 모든 사용자가 내가 정의한 기본 동작을 가져옵니다. 사용 사례에 따라 이것이 허용될 수도 있지만 그렇지 않은 경우 어떤 위험 프로필을 통해 신뢰할 수 있는 활성 예측을 할 수 있는지 알아야 합니다.

위험 허용 범위가 예측의 신뢰도에 미치는 영향을 이해할 수 있도록 Firebase 콘솔의 각 예측 카드에는 사용 가능한 세 가지 위험 프로필 각각에 대해 지난 2주간 예측신뢰도를 나타내는 바닥글이 있습니다.

카드의 성능 섹션을 펼치면 예측 성능에 대한 세부정보를 확인할 수 있습니다.

그래프에는 지난 2주 동안의 데이터에 대한 예측 모델의 참양성률이 표시됩니다. 그래프의 각 데이터 포인트는 해당 날짜의 모델이 홀드아웃 데이터세트에서 얼마나 잘 수행되었는지를 나타냅니다. 성능 통계 계산 방식을 참조하세요. 참양성률이 필수 임계값 아래로 떨어진 날은 그래프에서 빨간색으로 표시됩니다. Firebase는 이렇게 필수 임계값 아래로 떨어진 날에는 예측 기반 사용자 타겟팅을 중지합니다.

지난 14일 동안 모델이 비활성화된 날이 있는 경우, 잠재적으로 거짓양성 수가 더 늘어나더라도 더 많은 사용자를 타겟팅하고 비활성화되는 날이 없도록 위험 허용 범위 수준을 올리는 것을 고려할 수도 있습니다. 위험 허용 범위 슬라이더를 다른 위치로 이동하면 다른 위험 허용 범위 수준이 모델 성능에 미치는 영향을 확인할 수 있습니다.

이렇게 하면 그래프는 각 날짜의 모델이 선택한 위험 허용 범위 수준으로 얼마나 잘 수행되었는지를 보여줍니다. 위의 예에서는 위험 허용 범위를 중간에서 높은 값으로 올리면 모델의 참양성률이 지난 2주 동안 모두 45% 임계값보다 높게 유지되지만 거짓양성의 허용 범위는 더 커지는 것을 알 수 있습니다.

사용자 도달범위와 정확도 사이에 만족스러운 균형을 이루는 위험 허용 범위 수준을 찾을 경우 원격 구성, A/B 테스트 또는 알림 작성기로 사용자를 타겟팅할 때 해당 위험 허용 범위 수준을 선택합니다.

성능 통계 계산 방식

라벨 지정

대부분의 머신러닝 작업과 마찬가지로 예측 모델 학습은 '지도 러닝' 작업입니다. 즉, 모델을 학습시키는 데 사용되는 모든 사용자에게 '앱 제거 예정', '지출하지 않을 예정' 등과 같은 라벨을 할당해야 합니다. 사용자에게 라벨을 지정하기 위해 예측은 28일간 앱의 모든 활성 사용자를 사용하고 해당 데이터에서 최근 7일간의 이벤트를 삭제합니다. 이 기간을 라벨 기간이라고 합니다. Firebase 예측은 라벨 기간의 이벤트를 사용하여 사용자에게 라벨을 할당한 다음, 최근 7일 이전의 사용자 이벤트(학습 기간의 이벤트)를 사용하여 모델을 학습시킵니다.

홀드아웃 데이터 및 학습 데이터

일부 데이터는 학습에 직접 사용되지 않습니다. 지도 학습 작업에서 일반적으로 그러하듯이, 예측에서는 데이터 중 20%를 홀드아웃 데이터로 두고 나머지 80%만 사용하여 모델을 학습시킵니다. 그런 다음 모델의 성능을 평가하기 위해 학습 기간의 데이터를 기반으로 홀드아웃 세트에서 사용자에 대한 예측을 생성하고 라벨 기간에서 생성된 라벨을 기반으로 각 사용자의 실제 결과와 비교합니다.

Firebase Console에 표시되는 모든 통계는 홀드아웃 데이터에 대해 모델을 평가한 결과입니다.