เกี่ยวกับการทดสอบ A/B ของ Firebase

หน้านี้จะให้ข้อมูลโดยละเอียดเกี่ยวกับวิธีการทำงานของ Firebase A/B Testing เพื่อช่วยเพิ่มความเกี่ยวข้องและประโยชน์ของผลการทดสอบ

ขนาดตัวอย่าง

การอนุมานของ Firebase A/B Testing ไม่จําเป็นต้องระบุขนาดตัวอย่างขั้นต่ำก่อนเริ่มการทดสอบ โดยทั่วไป คุณควรเลือกระดับจำนวนผู้ที่เห็นจากการทดสอบที่ใหญ่ที่สุดที่คุณรู้สึกสบายใจ ขนาดตัวอย่างที่ใหญ่กว่าจะเพิ่มโอกาสในการพบผลลัพธ์ที่มีนัยสำคัญทางสถิติ โดยเฉพาะเมื่อความแตกต่างของประสิทธิภาพระหว่างตัวแปรมีเพียงเล็กน้อย นอกจากนี้ การเข้าดูเครื่องคำนวณขนาดการสุ่มตัวอย่างออนไลน์เพื่อค้นหาขนาดตัวอย่างที่แนะนำตามลักษณะของการทดลองของคุณอาจเป็นประโยชน์สำหรับคุณ

แก้ไขการทดสอบ

คุณสามารถแก้ไขพารามิเตอร์ที่เลือกของการทดสอบที่ทำงานอยู่ได้ ดังนี้

  • ชื่อการทดสอบ
  • คำอธิบาย
  • เงื่อนไขการกำหนดเป้าหมาย
  • ค่าของตัวแปร

วิธีแก้ไขการทดสอบ

  1. เปิดหน้าผลลัพธ์ของการทดสอบที่คุณต้องการแก้ไข
  2. จากเมนูเพิ่มเติม ให้เลือก แก้ไขการทดสอบที่ทำงานอยู่
  3. ทำการเปลี่ยนแปลง แล้วคลิกเผยแพร่

โปรดทราบว่าการเปลี่ยนแปลงลักษณะการทำงานของแอประหว่างการทดสอบที่ทำงานอยู่อาจส่งผลต่อผลลัพธ์

ตรรกะการกำหนดตัวแปรของการกำหนดค่าระยะไกล

ระบบจะกำหนดผู้ใช้ที่ตรงกับเงื่อนไขการกำหนดเป้าหมายการทดสอบทั้งหมด (รวมถึงเงื่อนไขเปอร์เซ็นต์จำนวนผู้ที่เห็น) ให้กับตัวแปรการทดสอบตามน้ำหนักของตัวแปร และแฮชของรหัสการทดสอบและรหัสการติดตั้ง Firebase ของผู้ใช้

กลุ่มเป้าหมายของ Google Analytics อาจมีเวลาในการตอบสนองและไม่พร้อมใช้งานทันทีเมื่อผู้ใช้มีคุณสมบัติตรงตามเกณฑ์กลุ่มเป้าหมายเป็นครั้งแรก ดังนี้

  • เมื่อคุณสร้างกลุ่มเป้าหมายใหม่ ระบบจะใช้เวลารวบรวมผู้ใช้ใหม่ 24-48 ชั่วโมง
  • โดยปกติแล้ว ผู้ใช้ใหม่จะได้รับการลงทะเบียนในกลุ่มเป้าหมายที่มีคุณสมบัติตามเกณฑ์ 24-48 ชั่วโมงหลังจากที่มีสิทธิ์

สำหรับการกำหนดเป้าหมายที่คำนึงถึงเวลาเป็นสำคัญ ลองใช้พร็อพเพอร์ตี้ผู้ใช้ Google Analytics หรือตัวเลือกการกำหนดเป้าหมายในตัว เช่น ประเทศหรือภูมิภาค ภาษา และเวอร์ชันแอป

เมื่อผู้ใช้เข้าสู่การทดสอบแล้ว ระบบจะกำหนดให้กับตัวแปรการทดสอบอย่างถาวร และรับค่าพารามิเตอร์จากการทดสอบ ตราบใดที่การทดสอบยังคงทำงานอยู่ แม้ว่าพร็อพเพอร์ตี้ผู้ใช้จะมีการเปลี่ยนแปลง และไม่มีคุณสมบัติตรงตามเกณฑ์การกำหนดเป้าหมายการทดสอบอีกต่อไป

เหตุการณ์การเปิดใช้งาน

เหตุการณ์การเปิดใช้งานการทดสอบจะจำกัดการวัดผลการทดสอบไว้เฉพาะผู้ใช้แอปที่ทริกเกอร์เหตุการณ์การเปิดใช้งานเท่านั้น เหตุการณ์การเปิดใช้งานการทดสอบไม่ส่งผลใดๆ ต่อพารามิเตอร์การทดสอบที่แอปดึงข้อมูล ผู้ใช้ทั้งหมดที่มีคุณสมบัติตรงตามเกณฑ์การกำหนดเป้าหมายการทดสอบจะได้รับพารามิเตอร์การทดสอบ ดังนั้นจึงควรเลือกเหตุการณ์การเปิดใช้งานที่เกิดขึ้นหลังจากดึงข้อมูลและเปิดใช้งานพารามิเตอร์การทดสอบแล้ว แต่ก่อนที่จะใช้พารามิเตอร์การทดสอบเพื่อแก้ไขลักษณะการทำงานของแอป

น้ำหนักของตัวแปร

ในระหว่างการสร้างการทดสอบ คุณจะเปลี่ยนน้ำหนักของตัวแปรเริ่มต้นได้เพื่อวางเปอร์เซ็นต์ที่มากขึ้นของผู้ใช้การทดสอบลงในตัวแปร

แปลผลการทดสอบ

Firebase A/B Testing ใช้การอนุมานความถี่เพื่อช่วยให้คุณเข้าใจแนวโน้มที่ผลการทดสอบอาจเกิดขึ้นเนื่องจากโอกาสแบบสุ่มเท่านั้น โดยแนวโน้มนี้จะแสดงด้วยค่าความน่าจะเป็นหรือค่า P-Value ค่า P-Value คือความน่าจะเป็นที่ความแตกต่างของประสิทธิภาพระหว่าง 2 ตัวแปรอาจเกิดขึ้นเนื่องจากความบังเอิญแบบสุ่ม ซึ่งวัดด้วยค่าระหว่าง 0 ถึง 1 การทดสอบ A/B ใช้ระดับความสำคัญอยู่ที่ 0.05 ดังนั้น:

  • ค่า P-Value ที่น้อยกว่า 0.05 บ่งชี้ความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างตัวแปรต่างๆ ซึ่งหมายความว่าค่าดังกล่าวไม่น่าจะเกิดขึ้นโดยบังเอิญ
  • ค่า P-Value ที่มากกว่า 0.05 บ่งชี้ว่าความแตกต่างระหว่างตัวแปรไม่มีนัยสำคัญทางสถิติ

ข้อมูลการทดสอบจะรีเฟรชวันละครั้ง และเวลาอัปเดตครั้งล่าสุดจะปรากฏที่ด้านบนของหน้าผลการทดสอบ

กราฟผลการทดสอบแสดงค่าเฉลี่ยสะสมของเมตริกที่เลือก ตัวอย่างเช่น หากคุณกำลังติดตามรายได้จากโฆษณาต่อผู้ใช้เป็นเมตริก รายงานจะแสดงรายได้ที่สังเกตการณ์ต่อผู้ใช้ 1 ราย และหากคุณกำลังติดตามผู้ใช้ที่ไม่พบข้อขัดข้อง เครื่องมือนี้จะติดตามเปอร์เซ็นต์ของผู้ใช้ที่ไม่พบข้อขัดข้อง ข้อมูลนี้เป็นข้อมูลที่สะสมจากจุดเริ่มต้นของการทดสอบ

ผลลัพธ์จะแยกเป็นข้อมูลที่สังเกตได้และข้อมูลการอนุมาน ข้อมูลที่สังเกตได้จะคำนวณจากข้อมูล Google Analytics โดยตรง และข้อมูลอนุมานจะแสดงค่า P-Value และช่วงความเชื่อมั่นเพื่อช่วยคุณประเมินความสำคัญทางสถิติของข้อมูลที่สังเกตได้

สำหรับเมตริกแต่ละรายการ จะแสดงสถิติต่อไปนี้

ข้อมูลที่สังเกต

  • มูลค่ารวมของเมตริกที่ติดตาม (จำนวนผู้ใช้ที่คงไว้ จำนวนผู้ใช้ที่เกิดข้อขัดข้อง และรายได้ทั้งหมด)
  • อัตราเฉพาะเมตริก (อัตราการคงผู้ใช้ไว้, อัตรา Conversion, รายได้ต่อผู้ใช้)
  • เปอร์เซ็นต์ความแตกต่าง (การเพิ่ม) ระหว่างตัวแปรกับเกณฑ์พื้นฐาน

ข้อมูลการอนุมาน

  • CI (ความแตกต่างของวิธีการ) 95% แสดงช่วงเวลาที่มีค่า "true" ของเมตริกที่ติดตามด้วยความเชื่อมั่น 95% ตัวอย่างเช่น หากผลการทดสอบให้ CI ได้ถึง 95% สำหรับรายได้รวมโดยประมาณระหว่าง $5 ถึง $10 มีโอกาส 95% ที่ความแตกต่างที่แท้จริงของค่าเฉลี่ยจะอยู่ที่ $5 ถึง $10 หากช่วง CI รวม 0 แสดงว่าระบบไม่พบความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างตัวแปรและเกณฑ์พื้นฐาน

    ค่าช่วงความเชื่อมั่นจะแสดงในรูปแบบที่ตรงกับเมตริกที่ติดตาม เช่น เวลา (ในหน่วย HH:MM:SS) สำหรับการคงผู้ใช้ไว้, USD สำหรับรายได้จากโฆษณาต่อผู้ใช้ และเปอร์เซ็นต์ของอัตรา Conversion

  • ค่า P-Value ซึ่งแสดงความน่าจะเป็นที่ไม่มีความแตกต่างที่แท้จริงระหว่างตัวแปรและเกณฑ์พื้นฐาน กล่าวคือ ความแตกต่างที่สังเกตได้ใดๆ มักเกิดจากความบังเอิญ ยิ่งค่า P-Value ต่ำเท่าใด ความเชื่อมั่นว่าประสิทธิภาพที่สังเกตได้ยังคงเป็นจริงในอนาคตก็จะยิ่งสูงขึ้นเท่านั้น ค่า 0.05 หรือต่ำกว่าแสดงถึงความแตกต่างที่มีนัยสำคัญ และแนวโน้มต่ำที่ผลลัพธ์เกิดจากความบังเอิญ ค่า P จะอิงตามการทดสอบแบบด้านเดียว ซึ่งค่าของตัวแปรจะมากกว่าค่าเกณฑ์พื้นฐาน Firebase ใช้ t-test ค่าความแปรปรวนไม่เท่ากันกับตัวแปรต่อเนื่อง (ค่าตัวเลข เช่น รายได้) และ z-test ของสัดส่วนสำหรับข้อมูล Conversion (ค่าไบนารี เช่น การคงผู้ใช้ไว้ ผู้ใช้ที่ไม่พบข้อขัดข้อง ผู้ใช้ที่ทริกเกอร์เหตุการณ์ Google Analytics)

ผลการทดสอบจะให้ข้อมูลเชิงลึกที่สำคัญสำหรับตัวแปรการทดสอบแต่ละรายการ ได้แก่

  • จำนวนเมตริกการทดสอบแต่ละรายการสูงกว่าหรือต่ำกว่าเกณฑ์พื้นฐาน ซึ่งเป็นข้อมูลที่วัดโดยตรง (ข้อมูลที่สังเกตได้จริง)
  • ความเป็นไปได้ที่ความแตกต่างที่พบระหว่างตัวแปรและเกณฑ์พื้นฐานอาจเกิดขึ้นเนื่องจากความบังเอิญ (ค่า P-Value) แบบสุ่ม
  • ช่วงที่มีแนวโน้มว่าจะมีความแตกต่างด้านประสิทธิภาพที่เป็น "จริง" ระหว่างตัวแปรกับเกณฑ์พื้นฐานสำหรับเมตริกการทดสอบแต่ละรายการ ซึ่งเป็นวิธีทำความเข้าใจสถานการณ์เกี่ยวกับประสิทธิภาพ "กรณีที่ดีที่สุด" และ "กรณีที่แย่ที่สุด"

ตีความผลลัพธ์สำหรับการทดสอบที่ขับเคลื่อนโดย Google Optimize

ผลการทดสอบ A/B ของ Firebase สำหรับการทดสอบที่เริ่มก่อนวันที่ 23 ตุลาคม 2023 ขับเคลื่อนโดย Google Optimize Google Optimize ใช้การอนุมานแบบ Bayesian เพื่อสร้างสถิติเชิงลึกจากข้อมูลการทดสอบของคุณ

ผลลัพธ์จะแบ่งออกเป็น "ข้อมูลที่สังเกตได้" และ "ข้อมูลโดยประมาณ" ข้อมูลที่สังเกตได้จะคำนวณจากข้อมูลวิเคราะห์โดยตรง และข้อมูลโดยประมาณได้มาจากการใช้โมเดล Bayesian กับข้อมูลที่สังเกตได้

สำหรับเมตริกแต่ละรายการ จะแสดงสถิติต่อไปนี้

ค่าที่สังเกตได้

  • มูลค่ารวม (ผลรวมของเมตริกสำหรับผู้ใช้ทั้งหมดในตัวแปร)
  • ค่าเฉลี่ย (ค่าเฉลี่ยของเมตริกสำหรับผู้ใช้ในตัวแปร)
  • % ส่วนต่างจากเกณฑ์พื้นฐาน

ข้อมูลโดยประมาณ

  • ความน่าจะเป็นที่จะสูงกว่าเกณฑ์พื้นฐาน: แนวโน้มที่เมตริกจะสูงกว่าสําหรับตัวแปรนี้เมื่อเทียบกับเกณฑ์พื้นฐาน
  • เปอร์เซ็นต์ความแตกต่างจากเกณฑ์พื้นฐาน: ขึ้นอยู่กับค่าประมาณโมเดลมัธยฐานของเมตริกสำหรับตัวแปรและเกณฑ์พื้นฐาน
  • ช่วงเมตริก: ช่วงที่มีแนวโน้มจะพบค่าของเมตริกมากที่สุด มีความแน่นอน 50% และ 95%

โดยรวมแล้ว ผลการทดสอบให้ข้อมูลเชิงลึกที่สำคัญ 3 ข้อสำหรับตัวแปรแต่ละรายการในการทดสอบ ดังนี้

  1. ค่าเปรียบเทียบของเมตริกการทดสอบแต่ละรายการสูงหรือต่ำกว่าเกณฑ์พื้นฐาน ซึ่งเป็นค่าที่วัดได้โดยตรง (เช่น ข้อมูลที่สังเกตได้จริง)
  2. มีแนวโน้มมากน้อยเพียงใดที่เมตริกการทดสอบแต่ละรายการสูงกว่าเกณฑ์พื้นฐาน / โดยรวมดีที่สุด โดยอิงตามการอนุมานแบบ Bayes (ความน่าจะเป็นที่จะดีกว่า / ดีที่สุดตามลำดับ)
  3. ช่วงที่เป็นไปได้ของเมตริกการทดสอบแต่ละรายการอิงตามการอนุมานแบบเบย์ ซึ่งก็คือสถานการณ์ "กรณีที่ดีที่สุด" และ "กรณีที่แย่ที่สุด" (ช่วงเวลาที่เชื่อถือได้)

การกำหนดผู้นำ

สำหรับการทดสอบที่ใช้ การอนุมานความถี่ Firebase จะประกาศว่าตัวแปรหนึ่งจะเป็นผู้นำหากมีความแตกต่างด้านประสิทธิภาพที่มีนัยสำคัญทางสถิติระหว่างตัวแปรกับเกณฑ์พื้นฐานในเมตริกเป้าหมาย หากมีตัวแปรหลายรายการตรงตามเกณฑ์นี้ ระบบจะเลือกตัวแปรที่มีค่า P-Value ต่ำสุด

สำหรับการทดสอบที่ใช้ Google Optimize Firebase จะประกาศว่าตัวแปรเป็นตัวแปร "ผู้นำที่ชัดเจน" หากมีโอกาสมากกว่า 95% ที่จะดีกว่าตัวแปรพื้นฐานในเมตริกหลัก หากมีตัวแปรหลายตัวตรงตามเกณฑ์ "ผู้นำที่ชัดเจน" เฉพาะตัวแปรที่มีประสิทธิภาพดีที่สุดโดยรวมเท่านั้นที่จะมีการติดป้ายกำกับเป็น "ตัวนำที่ชัดเจน"

เนื่องจากการตัดสินของผู้นำจะอิงตามเป้าหมายหลักเท่านั้น คุณจึงควรพิจารณาปัจจัยที่เกี่ยวข้องทั้งหมดและตรวจสอบผลลัพธ์ของเมตริกรองก่อนตัดสินใจว่าจะเปิดตัวตัวแปรที่ดีที่สุดหรือไม่ คุณอาจต้องพิจารณาข้อดีที่คาดหมายของการเปลี่ยนแปลง ความเสี่ยงในข้อเสีย (เช่น ช่วงท้ายของช่วงความเชื่อมั่นเพื่อปรับปรุง) และผลกระทบต่อเมตริกอื่นๆ ที่ไม่ใช่เป้าหมายหลัก

ตัวอย่างเช่น หากเมตริกหลักคือผู้ใช้ที่ไม่พบข้อขัดข้อง และตัวแปร A เป็นผู้นำที่ชัดเจนเมื่อเทียบกับเกณฑ์พื้นฐาน แต่เมตริกการคงผู้ใช้ไว้ของตัวแปร A อยู่ในช่วงการรักษาผู้ใช้พื้นฐาน คุณอาจต้องตรวจสอบเพิ่มเติมก่อนที่จะเปิดตัวตัวแปร A ให้กว้างขึ้น

คุณสามารถเปิดตัวตัวแปรใดก็ได้ ไม่ใช่แค่ตัวแปรที่ดีที่สุด โดยอิงตามการประเมินประสิทธิภาพโดยรวมในทั้งเมตริกหลักและรอง

ระยะเวลาการทดสอบ

Firebase แนะนำให้ทำการทดสอบต่อไปจนกว่าจะเป็นไปตามเงื่อนไขต่อไปนี้

  1. การทดสอบได้มีข้อมูลเพียงพอที่จะแสดงผลลัพธ์ที่เป็นประโยชน์ การทดสอบและข้อมูลผลลัพธ์จะอัปเดตวันละครั้ง คุณอาจต้องการดูเครื่องคำนวณขนาดการสุ่มตัวอย่างออนไลน์เพื่อประเมินขนาดตัวอย่างที่แนะนำของการทดสอบของคุณ
  2. การทดสอบมีการดำเนินการมานานพอที่จะเห็นตัวอย่างสะท้อนตัวตนของผู้ใช้ และวัดประสิทธิภาพในระยะยาวได้ ระยะเวลาขั้นต่ำที่แนะนำสำหรับการทดสอบการกำหนดค่าระยะไกลโดยทั่วไปคือ 2 สัปดาห์

ระบบจะประมวลผลข้อมูลการทดสอบไม่เกิน 90 วันหลังจากเริ่มการทดสอบ หลังจากผ่านไป 90 วัน การทดสอบจะหยุดโดยอัตโนมัติ ผลการทดสอบไม่ได้อัปเดตในคอนโซล Firebase อีกต่อไป และการทดสอบจะหยุดส่งค่าพารามิเตอร์เฉพาะการทดสอบ เมื่อถึงจุดนี้ ไคลเอ็นต์จะเริ่มดึงข้อมูลค่าพารามิเตอร์ตามเงื่อนไขในเทมเพลตการกำหนดค่าระยะไกล ระบบจะเก็บข้อมูลการทดสอบที่ผ่านมาไว้จนกว่าคุณจะลบการทดสอบ

สคีมา BigQuery

นอกจากการดูข้อมูลการทดสอบ A/B ในคอนโซล Firebase แล้ว คุณยังตรวจสอบและวิเคราะห์ข้อมูลการทดสอบใน BigQuery ได้ด้วย แม้ว่าการทดสอบ A/B ไม่มีตาราง BigQuery แยกต่างหาก แต่การเป็นสมาชิกการทดสอบและการเป็นสมาชิกของตัวแปรจะจัดเก็บอยู่ในเหตุการณ์ Google Analytics ทุกเหตุการณ์ภายในตารางเหตุการณ์ Analytics

พร็อพเพอร์ตี้ผู้ใช้ที่มีข้อมูลการทดสอบจะอยู่ในรูปแบบ userProperty.key like "firebase_exp_%" หรือ userProperty.key = "firebase_exp_01" โดยที่ 01 คือรหัสการทดสอบ และ userProperty.value.string_value มีดัชนี (แบบศูนย์) ของตัวแปรการทดสอบ

คุณใช้พร็อพเพอร์ตี้ผู้ใช้ทดสอบเหล่านี้เพื่อดึงข้อมูลการทดสอบได้ วิธีนี้ช่วยให้คุณแบ่งผลการทดสอบออกเป็นหลายๆ วิธี และยืนยันผลลัพธ์ของการทดสอบ A/B ได้อย่างอิสระ

หากต้องการเริ่มต้นใช้งาน ให้ทําตามขั้นตอนต่อไปนี้ตามที่อธิบายไว้ในคู่มือนี้

  1. เปิดใช้ BigQuery Export สำหรับ Google Analytics ในคอนโซล Firebase
  2. เข้าถึงข้อมูลการทดสอบ A/B โดยใช้ BigQuery
  3. สำรวจตัวอย่างการค้นหา

เปิดใช้ BigQuery Export สำหรับ Google Analytics ในคอนโซล Firebase

หากใช้แพ็กเกจ Spark คุณจะใช้แซนด์บ็อกซ์ของ BigQuery เพื่อเข้าถึง BigQuery ได้โดยไม่มีค่าใช้จ่ายโดยขึ้นอยู่กับขีดจำกัดของแซนด์บ็อกซ์ ดูข้อมูลเพิ่มเติมได้ที่ราคาและแซนด์บ็อกซ์ของ BigQuery

ก่อนอื่น ตรวจสอบว่าคุณส่งออกข้อมูล Analytics ไปยัง BigQuery โดยทำดังนี้

  1. เปิดแท็บการผสานรวม ซึ่งคุณจะเข้าถึงได้โดยใช้ > การตั้งค่าโปรเจ็กต์ในคอนโซล Firebase
  2. หากใช้ BigQuery กับบริการอื่นๆ ของ Firebase อยู่แล้ว ให้คลิกจัดการ หรือคลิกลิงก์
  3. อ่านเกี่ยวกับการลิงก์ Firebase กับ BigQuery แล้วคลิกถัดไป
  4. ในส่วนกำหนดค่าการผสานรวม ให้เปิดใช้ปุ่มสลับ Google Analytics
  5. เลือกภูมิภาคและเลือกการตั้งค่าการส่งออก

  6. คลิกลิงก์กับ BigQuery

อาจต้องใช้เวลาถึง 1 วันกว่าที่ตารางจะใช้งานได้ ทั้งนี้ขึ้นอยู่กับวิธีที่คุณเลือกส่งออกข้อมูล ดูข้อมูลเพิ่มเติมเกี่ยวกับการส่งออกข้อมูลโปรเจ็กต์ไปยัง BigQuery ได้ที่ส่งออกข้อมูลโปรเจ็กต์ไปยัง BigQuery

เข้าถึงข้อมูลการทดสอบ A/B ใน BigQuery

ก่อนค้นหาข้อมูลจากการทดสอบหนึ่งๆ คุณอาจต้องใช้สิ่งต่อไปนี้เพียงบางส่วนหรือทั้งหมดเพื่อใช้ในการค้นหา

  • รหัสการทดสอบ: คุณรับรหัสนี้ได้จาก URL ของหน้าภาพรวมการทดสอบ ตัวอย่างเช่น หาก URL มีลักษณะเป็น https://console.firebase.google.com/project/my_firebase_project/config/experiment/results/25 รหัสการทดสอบคือ 25
  • รหัสพร็อพเพอร์ตี้ Google Analytics: นี่คือรหัสพร็อพเพอร์ตี้ Google Analytics 9 หลัก คุณดูรหัสนี้ได้ใน Google Analytics และปรากฏใน BigQuery ด้วยเมื่อขยายชื่อโปรเจ็กต์เพื่อแสดงชื่อตารางเหตุการณ์ Google Analytics (project_name.analytics_000000000.events)
  • วันที่ทดสอบ: หากต้องการเขียนคำค้นหาที่รวดเร็วและมีประสิทธิภาพมากขึ้น คุณควรจำกัดคำค้นหาให้อยู่ในพาร์ติชันตารางเหตุการณ์รายวันของ Google Analytics ที่มีข้อมูลการทดสอบของคุณ ซึ่งเป็นตารางที่ระบุด้วยคำต่อท้าย YYYYMMDD ดังนั้น หากทำการทดสอบตั้งแต่วันที่ 2 กุมภาพันธ์ 2024 ถึง 2 พฤษภาคม 2024 คุณจะต้องระบุ _TABLE_SUFFIX between '20240202' AND '20240502' ดูตัวอย่างได้ที่เลือกค่าของการทดสอบที่เจาะจง
  • ชื่อเหตุการณ์: โดยปกติแล้วจะสอดคล้องกับเมตริกเป้าหมายที่คุณกําหนดค่าไว้ในการทดสอบ เช่น เหตุการณ์ in_app_purchase, ad_impression หรือ user_retention

หลังจากรวบรวมข้อมูลที่จำเป็นต่อการสร้างคำค้นหาแล้ว ให้ทำดังนี้

  1. เปิด BigQuery ใน Google Cloud Console
  2. เลือกโปรเจ็กต์ แล้วเลือกสร้างการค้นหา SQL
  3. เพิ่มคำค้นหา ดูตัวอย่างการค้นหาที่จะเรียกใช้ได้ที่สำรวจตัวอย่างการค้นหา
  4. คลิกเรียกใช้

ค้นหาข้อมูลการทดสอบโดยใช้คำค้นหาที่สร้างขึ้นโดยอัตโนมัติของคอนโซล Firebase

หากคุณใช้แผน Blaze หน้าภาพรวมการทดสอบจะแสดงคำค้นหาตัวอย่างที่ส่งคืนชื่อการทดสอบ ตัวแปร ชื่อเหตุการณ์ และจำนวนเหตุการณ์สำหรับการทดสอบที่คุณกำลังดู

วิธีรับและเรียกใช้การค้นหาที่สร้างขึ้นโดยอัตโนมัติ

  1. จากคอนโซล Firebase ให้เปิดการทดสอบ A/B แล้วเลือกการทดสอบ A/B ที่คุณต้องการค้นหาเพื่อเปิดภาพรวมของการทดสอบ
  2. จากเมนูตัวเลือกใต้การผสานรวม BigQuery ให้เลือกข้อมูลการทดสอบการค้นหา ซึ่งจะเปิดโปรเจ็กต์ใน BigQuery ภายในคอนโซล Google Cloud Console และแสดงคำค้นหาพื้นฐานที่คุณใช้ค้นหาข้อมูลการทดสอบได้

ตัวอย่างต่อไปนี้แสดงคำค้นหาที่สร้างขึ้นสำหรับการทดสอบที่มีตัวแปร 3 ตัวแปร (รวมถึงเกณฑ์พื้นฐาน) ที่ชื่อว่า "การทดสอบต้อนรับฤดูหนาว" โดยจะแสดงผลชื่อการทดสอบที่ทำงานอยู่ ชื่อตัวแปร เหตุการณ์ที่ไม่ซ้ำ และจำนวนเหตุการณ์สำหรับแต่ละเหตุการณ์ โปรดทราบว่าเครื่องมือสร้างการค้นหาไม่ได้ระบุชื่อโปรเจ็กต์ในชื่อตาราง เนื่องจากชื่อจะเปิดขึ้นโดยตรงภายในโปรเจ็กต์

  /*
    This query is auto-generated by Firebase A/B Testing for your
    experiment "Winter welcome experiment".
    It demonstrates how you can get event counts for all Analytics
    events logged by each variant of this experiment's population.
  */
  SELECT
    'Winter welcome experiment' AS experimentName,
    CASE userProperty.value.string_value
      WHEN '0' THEN 'Baseline'
      WHEN '1' THEN 'Welcome message (1)'
      WHEN '2' THEN 'Welcome message (2)'
      END AS experimentVariant,
    event_name AS eventName,
    COUNT(*) AS count
  FROM
    `analytics_000000000.events_*`,
    UNNEST(user_properties) AS userProperty
  WHERE
    (_TABLE_SUFFIX BETWEEN '20240202' AND '20240502')
    AND userProperty.key = 'firebase_exp_25'
  GROUP BY
    experimentVariant, eventName

ดูตัวอย่างการค้นหาเพิ่มเติมได้ในส่วนสํารวจการค้นหาตัวอย่าง

สํารวจตัวอย่างการค้นหา

ส่วนต่อไปนี้จะมีตัวอย่างของคำค้นหาที่ใช้ดึงข้อมูลการทดสอบ A/B จากตารางเหตุการณ์ Google Analytics ได้

แยกค่าเบี่ยงเบนมาตรฐานของการซื้อและการทดสอบออกจากการทดสอบทั้งหมด

คุณสามารถใช้ข้อมูลผลการทดสอบเพื่อยืนยันผลลัพธ์ของ Firebase A/B Testing ได้อย่างอิสระ คำสั่ง BigQuery SQL ต่อไปนี้ดึงข้อมูลตัวแปรการทดสอบ จำนวนผู้ใช้ที่ไม่ซ้ำในแต่ละตัวแปร และรวมรายได้ทั้งหมดจากเหตุการณ์ in_app_purchase และ ecommerce_purchase และค่าเบี่ยงเบนมาตรฐานสำหรับการทดสอบทั้งหมดภายในช่วงเวลาที่ระบุเป็นวันที่เริ่มต้นและวันที่สิ้นสุด _TABLE_SUFFIX คุณสามารถใช้ข้อมูลที่ได้รับจากการค้นหานี้กับเครื่องมือสร้างนัยสำคัญทางสถิติสำหรับการทดสอบ t แบบด้านเดียวเพื่อยืนยันว่าผลลัพธ์ที่ Firebase แสดงนั้นตรงกับการวิเคราะห์ของคุณเอง

ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีที่การทดสอบ A/B คํานวณการอนุมานได้ที่ตีความผลการทดสอบ

  /*
    This query returns all experiment variants, number of unique users,
    the average USD spent per user, and the standard deviation for all
    experiments within the date range specified for _TABLE_SUFFIX.
  */
  SELECT
    experimentNumber,
    experimentVariant,
    COUNT(*) AS unique_users,
    AVG(usd_value) AS usd_value_per_user,
    STDDEV(usd_value) AS std_dev
  FROM
    (
      SELECT
        userProperty.key AS experimentNumber,
        userProperty.value.string_value AS experimentVariant,
        user_pseudo_id,
        SUM(
          CASE
            WHEN event_name IN ('in_app_purchase', 'ecommerce_purchase')
              THEN event_value_in_usd
            ELSE 0
            END) AS usd_value
      FROM `PROJECT_NAME.analytics_ANALYTICS_ID.events_*`
      CROSS JOIN UNNEST(user_properties) AS userProperty
      WHERE
        userProperty.key LIKE 'firebase_exp_%'
        AND event_name IN ('in_app_purchase', 'ecommerce_purchase')
        AND (_TABLE_SUFFIX BETWEEN 'YYYYMMDD' AND 'YYYMMDD')
      GROUP BY 1, 2, 3
    )
  GROUP BY 1, 2
  ORDER BY 1, 2;

เลือกค่าในการทดสอบที่เฉพาะเจาะจง

ตัวอย่างการค้นหาต่อไปนี้แสดงวิธีรับข้อมูลสําหรับการทดสอบที่เฉพาะเจาะจงใน BigQuery การค้นหาตัวอย่างนี้แสดงชื่อการทดสอบ ชื่อตัวแปร (รวมถึงเกณฑ์พื้นฐาน) ชื่อเหตุการณ์ และจำนวนเหตุการณ์

  SELECT
    'EXPERIMENT_NAME' AS experimentName,
    CASE userProperty.value.string_value
      WHEN '0' THEN 'Baseline'
      WHEN '1' THEN 'VARIANT_1_NAME'
      WHEN '2' THEN 'VARIANT_2_NAME'
      END AS experimentVariant,
    event_name AS eventName,
    COUNT(*) AS count
  FROM
    `analytics_ANALYTICS_PROPERTY.events_*`,
    UNNEST(user_properties) AS userProperty
  WHERE
    (_TABLE_SUFFIX BETWEEN 'YYYMMDD' AND 'YYYMMDD')
    AND userProperty.key = 'firebase_exp_EXPERIMENT_NUMBER'
  GROUP BY
    experimentVariant, eventName

จำกัดสูงสุด

การทดสอบ A/B จำกัดไว้ที่การทดสอบทั้งหมด 300 รายการ การทดสอบที่ทำงานอยู่ 24 รายการ และการทดสอบฉบับร่าง 24 รายการ ขีดจำกัดเหล่านี้จะแชร์กับการเปิดตัวการกำหนดค่าระยะไกล ตัวอย่างเช่น หากคุณมีการเปิดตัวที่ใช้งานอยู่ 2 รายการและการทดสอบที่ทำงานอยู่ 3 รายการ คุณจะมีการเปิดตัวหรือการทดสอบเพิ่มเติมได้สูงสุด 19 รายการ

  • หากมีการทดสอบทั้งหมดถึงขีดจํากัดทั้งหมด 300 รายการแล้ว หรือถึงขีดจำกัดการทดสอบฉบับร่าง 24 รายการ คุณต้องลบการทดสอบที่มีอยู่ออกก่อนที่จะสร้างการทดสอบใหม่

  • หากคุณมีการทดสอบและการเปิดตัวที่ทำงานอยู่ถึงขีดจำกัด 24 รายการแล้ว คุณต้องหยุดการทดสอบหรือการเปิดตัวที่ทำงานอยู่ก่อนที่จะเริ่มการทดสอบใหม่

การทดสอบมีตัวแปรได้สูงสุด 8 ตัวแปร (รวมเกณฑ์พื้นฐาน) และมีพารามิเตอร์ได้สูงสุด 25 รายการสำหรับแต่ละตัวแปร การทดลองหนึ่งอาจมีขนาดได้ถึงประมาณ 200 KiB ซึ่งรวมถึงชื่อตัวแปร พารามิเตอร์ตัวแปร และข้อมูลเมตาการกำหนดค่าอื่นๆ