เกี่ยวกับการทดสอบ A/B ของ Firebase

หน้านี้จะให้ข้อมูลโดยละเอียดเกี่ยวกับวิธีการทำงานของ Firebase A/B Testing เพื่อช่วยเพิ่มความเกี่ยวข้องและประโยชน์ของผลการทดสอบ

ขนาดตัวอย่าง

การอนุมานการทดสอบ A/B ของ Firebase ไม่ได้กำหนดให้ระบุขนาดตัวอย่างขั้นต่ำก่อนเริ่มการทดสอบ โดยทั่วไป คุณควรเลือกจำนวนผู้ที่เห็นในการทดสอบสูงสุดเท่าที่คุณพอใจ ตัวอย่างขนาดใหญ่จะเพิ่มโอกาสในการพบผลลัพธ์ที่มีนัยสําคัญทางสถิติ โดยเฉพาะเมื่อความแตกต่างด้านประสิทธิภาพระหว่างตัวแปรมีขนาดเล็ก การใช้เครื่องคำนวณขนาดตัวอย่างออนไลน์เพื่อหาขนาดตัวอย่างที่แนะนำตามลักษณะของการทดสอบก็มีประโยชน์เช่นกัน

แก้ไขการทดสอบ

คุณแก้ไขพารามิเตอร์ที่เลือกของการทดสอบที่ทำงานอยู่ได้ ซึ่งรวมถึง

  • ชื่อการทดสอบ
  • คำอธิบาย
  • เงื่อนไขการกำหนดเป้าหมาย
  • ค่าของตัวแปร

วิธีแก้ไขการทดสอบ

  1. เปิดหน้าผลลัพธ์ของการทดสอบที่คุณต้องการแก้ไข
  2. จากเมนูเพิ่มเติม ให้เลือก แก้ไขการทดสอบที่ทำงานอยู่
  3. แก้ไขตามต้องการ แล้วคลิกเผยแพร่

โปรดทราบว่าการเปลี่ยนลักษณะการทำงานของแอประหว่างที่การทดสอบทำงานอยู่อาจส่งผลต่อผลลัพธ์

ตรรกะการกำหนดตัวแปรของการกำหนดค่าระยะไกล

ระบบจะกำหนดผู้ใช้ที่ตรงกับเงื่อนไขการกำหนดเป้าหมายการทดสอบทั้งหมด (รวมถึงเงื่อนไขเปอร์เซ็นต์การเห็น) ให้กับตัวแปรการทดสอบตามน้ำหนักตัวแปร และแฮชของรหัสการทดสอบและรหัสการติดตั้ง Firebase ของผู้ใช้

กลุ่มเป้าหมายของ Google Analytics ขึ้นอยู่กับเวลาในการตอบสนองและใช้ไม่ได้โดยทันทีเมื่อผู้ใช้มีคุณสมบัติตรงตามเกณฑ์กลุ่มเป้าหมายในตอนแรก

  • เมื่อคุณสร้างกลุ่มเป้าหมายใหม่ อาจใช้เวลา 24-48 ชั่วโมงในการรวบรวมผู้ใช้ใหม่
  • โดยปกติแล้ว ผู้ใช้ใหม่จะลงทะเบียนในกลุ่มเป้าหมายที่มีคุณสมบัติตามเกณฑ์ใน 24-48 ชั่วโมงหลังจากที่มีสิทธิ์

สำหรับการกำหนดเป้าหมายที่ต้องคำนึงถึงเวลาเป็นสำคัญ ให้พิจารณาใช้พร็อพเพอร์ตี้ผู้ใช้ Google Analytics หรือตัวเลือกการกำหนดเป้าหมายในตัว เช่น ประเทศหรือภูมิภาค ภาษา และเวอร์ชันแอป

เมื่อผู้ใช้เข้าสู่การทดสอบแล้ว ระบบจะกําหนดผู้ใช้ให้กับตัวแปรการทดสอบอย่างถาวร และรับค่าพารามิเตอร์จากการทดสอบ ตราบใดที่การทดสอบนั้นยังคงทํางานอยู่ แม้ว่าพร็อพเพอร์ตี้ผู้ใช้จะเปลี่ยนแปลงและไม่เป็นไปตามเกณฑ์การกำหนดเป้าหมายการทดสอบแล้วก็ตาม

เหตุการณ์การเปิดใช้งาน

เหตุการณ์การเปิดใช้งานการทดสอบจะจำกัดการวัดผลการทดสอบไว้เฉพาะผู้ใช้แอปที่ทริกเกอร์เหตุการณ์การเปิดใช้งาน เหตุการณ์การเปิดใช้งานการทดสอบไม่มีผลต่อพารามิเตอร์การทดสอบที่แอปดึงข้อมูล ผู้ใช้ทั้งหมดที่ตรงตามเกณฑ์การกำหนดเป้าหมายการทดสอบจะได้รับพารามิเตอร์การทดสอบ ด้วยเหตุนี้ คุณจึงควรเลือกเหตุการณ์การเปิดใช้งานที่เกิดขึ้นหลังจากดึงและเปิดใช้งานพารามิเตอร์การทดสอบ แต่ก่อนที่จะมีการใช้พารามิเตอร์การทดสอบเพื่อแก้ไขลักษณะการทำงานของแอป

น้ำหนักของตัวแปร

ในระหว่างการสร้างการทดสอบ คุณเปลี่ยนน้ำหนักของตัวแปรเริ่มต้นได้เพื่อนำเปอร์เซ็นต์ของผู้ใช้การทดสอบไปไว้ในตัวแปรที่มากขึ้น

ตีความผลการทดสอบ

Firebase A/B Testing ใช้การอนุมานความถี่เพื่อช่วยให้คุณเข้าใจแนวโน้มที่ผลการทดสอบจะเกิดขึ้นเพียงเพราะการสุ่ม ความน่าจะเป็นนี้แสดงด้วยค่าความน่าจะเป็นหรือ p-value ค่า P-Value คือความน่าจะเป็นที่ความแตกต่างในประสิทธิภาพระหว่างตัวแปร 2 ตัวอาจเกิดขึ้นเนื่องจากความบังเอิญซึ่งวัดด้วยค่าระหว่าง 0 ถึง 1 การทดสอบ A/B ใช้ระดับนัยสำคัญเท่ากับ 0.05 เพื่อให้

  • ค่า P-Value ที่น้อยกว่า 0.05 หมายถึงความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างตัวแปรต่างๆ ซึ่งหมายความว่าไม่น่าจะเกิดขึ้นโดยบังเอิญ
  • ค่า P-Value ที่มากกว่า 0.05 หมายความว่าความแตกต่างระหว่างตัวแปรไม่มีนัยสำคัญทางสถิติ

ระบบจะรีเฟรชข้อมูลการทดสอบวันละครั้ง และเวลาอัปเดตครั้งล่าสุดจะปรากฏที่ด้านบนของหน้าผลการทดสอบ

กราฟผลการทดสอบจะแสดงค่าเฉลี่ยสะสมของเมตริกที่เลือก ตัวอย่างเช่น หากคุณติดตามรายได้จากโฆษณาต่อผู้ใช้เป็นเมตริก ระบบจะแสดงรายได้ที่สังเกตการณ์ต่อผู้ใช้ และหากคุณกำลังติดตามผู้ใช้ที่ไม่พบข้อขัดข้อง การติดตามผู้ใช้ที่ไม่พบข้อขัดข้องจะติดตามเปอร์เซ็นต์ของผู้ใช้ที่ไม่พบข้อขัดข้อง ข้อมูลนี้เป็นแบบสะสมมาตั้งแต่เริ่มต้นการทดสอบ

ผลลัพธ์จะแบ่งออกเป็นข้อมูลที่สังเกตได้และข้อมูลการอนุมาน ค่าที่สังเกตได้จะคำนวณจากข้อมูลใน Google Analytics โดยตรง และข้อมูลการอนุมานจะแสดงค่า p และช่วงความเชื่อมั่นเพื่อช่วยคุณประเมินนัยสำคัญทางสถิติของข้อมูลที่สังเกตได้

สำหรับเมตริกแต่ละรายการ สถิติต่อไปนี้จะแสดงขึ้นมา

ข้อมูลที่สังเกต

  • มูลค่ารวมสำหรับเมตริกที่ติดตาม (จำนวนผู้ใช้งานต่อเนื่อง จำนวนผู้ใช้ที่ขัดข้อง รายได้ทั้งหมด)
  • อัตราเฉพาะเมตริก (อัตราการรักษาผู้ใช้, อัตรา Conversion, รายได้ต่อผู้ใช้)
  • เปอร์เซ็นต์ความแตกต่าง (การเพิ่ม) ระหว่างตัวแปรและเกณฑ์พื้นฐาน

ข้อมูลการอนุมาน

  • 95% CI (ความแตกต่างในความหมาย) แสดงช่วงที่มีค่า "จริง" ของเมตริกที่ติดตามด้วยความเชื่อมั่น 95% ตัวอย่างเช่น หากการทดสอบให้ผลลัพธ์ CI 95% สำหรับรายได้รวมโดยประมาณระหว่าง $5 ถึง $10 จะมีโอกาส 95% ที่ความแตกต่างที่แท้จริงจะอยู่ระหว่าง $5 ถึง $10 หากช่วง CI มี 0 แสดงว่าตรวจไม่พบความแตกต่างที่มีนัยสําคัญทางสถิติระหว่างตัวแปรกับเกณฑ์พื้นฐาน

    ค่าช่วงความเชื่อมั่นจะแสดงในรูปแบบที่ตรงกับเมตริกที่ติดตาม เช่น เวลา (เป็น HH:MM:SS) สำหรับการคงผู้ใช้ไว้ เงิน USD สำหรับรายได้จากโฆษณาต่อผู้ใช้ และเปอร์เซ็นต์สำหรับอัตรา Conversion

  • ค่า P-value ซึ่งแสดงความน่าจะเป็นที่ตัวแปรและเกณฑ์พื้นฐานไม่มีความแตกต่างอย่างแท้จริง กล่าวคือ ความแตกต่างที่สังเกตได้มักเกิดจากความบังเอิญ ยิ่งค่า P-Value ต่ำเท่าใด ความเชื่อมั่นว่าประสิทธิภาพที่สังเกตได้จะยังคงเป็นจริงในอนาคตก็จะสูงขึ้นเท่านั้น ค่า 0.05 หรือต่ำกว่าแสดงถึงความแตกต่างที่มีนัยสำคัญและความเป็นไปได้ต่ำที่ผลลัพธ์เกิดจากความบังเอิญ ค่า P อิงตามการทดสอบแบบด้านเดียว ซึ่งค่าของตัวแปรมากกว่าค่าพื้นฐาน Firebase ใช้ t-test ของความแปรปรวนที่ไม่เท่ากันสำหรับตัวแปรต่อเนื่อง (ค่าตัวเลข เช่น รายได้) และการทดสอบ z ของสัดส่วนสำหรับข้อมูล Conversion (ค่าไบนารี เช่น การคงผู้ใช้ไว้ ผู้ใช้ที่ไม่พบข้อขัดข้อง ผู้ใช้ที่เรียกเหตุการณ์ Google Analytics ให้แสดง)

ผลการทดสอบให้ข้อมูลเชิงลึกที่สำคัญสำหรับแต่ละตัวแปรการทดสอบ ซึ่งได้แก่

  • เมตริกการทดสอบแต่ละรายการสูงหรือต่ำกว่าเกณฑ์พื้นฐาน ตามที่วัดได้โดยตรง (ซึ่งก็คือข้อมูลที่สังเกตได้จริง)
  • ความเป็นไปได้ที่ความแตกต่างที่พบระหว่างตัวแปรและเกณฑ์พื้นฐานอาจเกิดขึ้นจากโอกาสแบบสุ่ม (ค่า P-Value)
  • ช่วงที่มีแนวโน้มว่าจะมีความแตกต่างด้านประสิทธิภาพ "จริง" ระหว่างตัวแปรและเกณฑ์พื้นฐานสำหรับเมตริกการทดสอบแต่ละรายการ ซึ่งเป็นวิธีในการทำความเข้าใจสถานการณ์ด้านประสิทธิภาพแบบ "กรณีที่ดีที่สุด" และ "ที่แย่ที่สุด"

ตีความผลลัพธ์ของการทดสอบที่ขับเคลื่อนโดย Google Optimize

ผลการทดสอบ A/B Testing ของ Firebase สําหรับการทดสอบที่เริ่มต้นก่อนวันที่ 23 ตุลาคม 2023 ขับเคลื่อนโดย Google Optimize Google Optimize ใช้การอนุมานแบบ Bayesian ในการสร้างสถิติเชิงลึกจากข้อมูลการทดสอบ

ผลลัพธ์จะแบ่งออกเป็น "ข้อมูลที่สังเกต" และ "ข้อมูลโดยประมาณ" โดยข้อมูลที่สังเกตได้จะคำนวณจากข้อมูลวิเคราะห์โดยตรง และข้อมูลโดยประมาณก็ได้มาจากการประยุกต์ใช้โมเดล Bayesian กับข้อมูลที่สังเกตได้

สำหรับเมตริกแต่ละรายการ สถิติต่อไปนี้จะแสดงขึ้นมา

ค่าที่สังเกตได้

  • มูลค่าทั้งหมด (ผลรวมของเมตริกสำหรับผู้ใช้ทั้งหมดในตัวแปร)
  • ค่าเฉลี่ย (ค่าเฉลี่ยของเมตริกสําหรับผู้ใช้ในตัวแปร)
  • % ส่วนต่างจากเกณฑ์พื้นฐาน

ข้อมูลโดยประมาณ

  • ความน่าจะเป็นที่จะชนะเกณฑ์พื้นฐาน: แนวโน้มที่เมตริกจะสูงกว่าสำหรับตัวแปรนี้เมื่อเทียบกับเกณฑ์พื้นฐาน
  • เปอร์เซ็นต์ความแตกต่างจากเกณฑ์พื้นฐาน: อิงตามค่าประมาณของโมเดลมัธยฐานของเมตริกสําหรับตัวแปรและเกณฑ์พื้นฐาน
  • ช่วงเมตริก: ช่วงที่น่าจะพบค่าของเมตริกมากที่สุดโดยมีความแน่นอน 50% และ 95%

โดยรวมแล้ว ผลการทดสอบได้ให้ข้อมูลเชิงลึกที่สำคัญ 3 ประการสำหรับตัวแปรแต่ละรายการในการทดสอบ ดังนี้

  1. เมตริกการทดสอบแต่ละรายการสูงหรือต่ำกว่าเกณฑ์พื้นฐานที่วัดโดยตรง (นั่นคือ ข้อมูลที่สังเกตได้จริง)
  2. แนวโน้มที่เมตริกการทดสอบแต่ละรายการจะสูงกว่าเกณฑ์พื้นฐาน / ภาพรวมที่ดีที่สุด โดยอิงจากการอนุมานแบบ Bayes (ความน่าจะเป็นที่จะทำได้ดีกว่า / ดีที่สุดตามลำดับ)
  3. ช่วงที่เป็นไปได้สำหรับเมตริกการทดสอบแต่ละรายการตามการอนุมานแบบ Bayes -"กรณีที่ดีที่สุด" และ "กรณีที่เลวร้ายที่สุด" (ช่วงเวลาที่น่าเชื่อถือ)

การกำหนดผู้นำ

สําหรับการทดสอบที่ใช้การอนุมานความถี่ Firebase จะประกาศว่าตัวแปรนําไปใช้หากมีความแตกต่างด้านประสิทธิภาพที่มีนัยสําคัญทางสถิติระหว่างตัวแปรกับเกณฑ์พื้นฐานในเมตริกเป้าหมาย หากมีตัวแปรหลายรายการตรงตามเกณฑ์นี้ ระบบจะเลือกตัวแปรที่มี p-value ต่ำสุด

สำหรับการทดสอบที่ใช้ Google Optimize Firebase จะประกาศว่าตัวแปรหนึ่งเป็น "ผู้นำที่ชัดเจน" หากมีโอกาสมากกว่า 95% ที่จะดีกว่าตัวแปรพื้นฐานในเมตริกหลัก หากมีตัวแปรหลายรายการตรงตามเกณฑ์ "ผู้นำที่ชัดเจน" ระบบจะติดป้ายกำกับเฉพาะตัวแปรที่มีประสิทธิภาพดีที่สุดโดยรวมเป็น "ตัวแปรที่ดีที่สุดที่ชัดเจน"

เนื่องจากการพิจารณาผู้นำจะขึ้นอยู่กับเป้าหมายหลักเท่านั้น คุณจึงควรพิจารณาปัจจัยที่เกี่ยวข้องทั้งหมดและตรวจสอบผลลัพธ์ของเมตริกรองก่อนที่จะตัดสินใจว่าจะนำตัวแปรที่ดีที่สุดไปใช้หรือไม่ คุณอาจต้องพิจารณาผลข้างเคียงที่คาดไว้ของการเปลี่ยนแปลง ความเสี่ยงข้อเสีย (เช่น ช่วงความเชื่อมั่นที่ต่ำลงสำหรับการปรับปรุง) และผลกระทบต่อเมตริกอื่นนอกเหนือจากเป้าหมายหลัก

เช่น หากเมตริกหลักคือผู้ใช้ที่ไม่พบข้อขัดข้อง และตัวแปร A เป็นผู้นำที่ชัดเจนกว่าเกณฑ์พื้นฐาน แต่เมตริกการคงผู้ใช้ของตัวแปร A ติดตามการคงผู้ใช้ไว้ระดับพื้นฐาน คุณอาจต้องตรวจสอบเพิ่มเติมก่อนที่จะเปิดตัวตัวแปร A ในวงกว้างขึ้น

คุณเปิดตัวตัวแปรใดก็ได้ ไม่ใช่แค่ตัวแปรที่ดีที่สุด โดยอิงตามการประเมินประสิทธิภาพโดยรวมทั้งในเมตริกหลักและเมตริกรอง

ระยะเวลาการทดสอบ

Firebase ขอแนะนำให้ดำเนินการทดสอบต่อไปจนกว่าจะเป็นไปตามเงื่อนไขต่อไปนี้

  1. การทดสอบได้มีข้อมูลมากพอที่จะให้ผลลัพธ์ที่เป็นประโยชน์ ข้อมูลการทดสอบและผลลัพธ์จะได้รับการอัปเดตวันละครั้ง คุณอาจต้องการดูเครื่องคำนวณขนาดตัวอย่างออนไลน์เพื่อประเมินขนาดตัวอย่างที่แนะนำของการทดสอบ
  2. การทดสอบนี้ดำเนินการมานานพอที่จะเห็นตัวอย่างซึ่งมาจากผู้ใช้และวัดประสิทธิภาพในระยะยาว รันไทม์ขั้นต่ำที่แนะนำสำหรับการทดสอบการกำหนดค่าระยะไกลทั่วไปคือ 2 สัปดาห์

ข้อมูลการทดสอบจะได้รับการประมวลผลไม่เกิน 90 วันหลังจากเริ่มการทดสอบ หลังจาก 90 วัน การทดสอบจะหยุดโดยอัตโนมัติ ผลการทดสอบจะไม่อัปเดตในคอนโซล Firebase อีกต่อไป และการทดสอบจะหยุดส่งค่าพารามิเตอร์เฉพาะการทดสอบ ณ จุดนี้ ไคลเอ็นต์จะเริ่มดึงข้อมูลค่าพารามิเตอร์ตามเงื่อนไขที่กำหนดไว้ในเทมเพลตการกำหนดค่าระยะไกล ระบบจะเก็บรักษาข้อมูลการทดสอบที่ผ่านมาไว้จนกว่าคุณจะลบการทดสอบ

สคีมา BigQuery

นอกเหนือจากการดูข้อมูลการทดสอบ A/B Testing ในคอนโซล Firebase แล้ว คุณยังตรวจสอบและวิเคราะห์ข้อมูลการทดสอบใน BigQuery ได้ด้วย แม้ว่าการทดสอบ A/B ไม่มีตาราง BigQuery แยกต่างหาก แต่ระบบจะจัดเก็บไว้ในเหตุการณ์ Google Analytics ทุกเหตุการณ์ภายในตารางเหตุการณ์ Analytics

พร็อพเพอร์ตี้ผู้ใช้ที่มีข้อมูลการทดสอบอยู่ในรูปแบบ userProperty.key like "firebase_exp_%" หรือ userProperty.key = "firebase_exp_01" โดยที่ 01 คือรหัสการทดสอบ และ userProperty.value.string_value มีดัชนี (แบบฐานศูนย์) ของตัวแปรการทดสอบ

คุณใช้พร็อพเพอร์ตี้ผู้ใช้ทดสอบเหล่านี้เพื่อดึงข้อมูลการทดสอบได้ วิธีนี้ช่วยให้คุณแบ่งผลการทดสอบได้หลากหลายวิธีและตรวจสอบผลลัพธ์ของการทดสอบ A/B ได้อย่างอิสระ

หากต้องการเริ่มต้นใช้งาน ให้ทําตามขั้นตอนต่อไปนี้ตามที่อธิบายไว้ในคู่มือนี้

  1. เปิดใช้ BigQuery Export สำหรับ Google Analytics ในคอนโซล Firebase
  2. เข้าถึงข้อมูลการทดสอบ A/B โดยใช้ BigQuery
  3. สำรวจตัวอย่างการค้นหา

เปิดใช้ BigQuery Export สำหรับ Google Analytics ในคอนโซล Firebase

หากใช้แพ็กเกจ Spark คุณจะใช้แซนด์บ็อกซ์ของ BigQuery เพื่อเข้าถึง BigQuery ได้โดยไม่มีค่าใช้จ่าย โดยจะขึ้นอยู่กับขีดจำกัดของแซนด์บ็อกซ์ ดูข้อมูลเพิ่มเติมได้ที่ราคาและแซนด์บ็อกซ์ของ BigQuery

ก่อนอื่น ให้ส่งออกข้อมูล Analytics ไปยัง BigQuery

  1. เปิดแท็บการผสานรวม ซึ่งคุณเข้าถึงได้โดยใช้ > การตั้งค่าโปรเจ็กต์ในคอนโซล Firebase
  2. หากคุณใช้ BigQuery กับบริการ Firebase อื่นๆ อยู่แล้ว ให้คลิกจัดการ หรือคลิกลิงก์
  3. อ่านเกี่ยวกับการลิงก์ Firebase กับ BigQuery แล้วคลิกถัดไป
  4. ในส่วนกําหนดค่าการผสานรวม ให้เปิดใช้ปุ่มสลับ Google Analytics
  5. เลือกภูมิภาค แล้วเลือกการตั้งค่าการส่งออก

  6. คลิกลิงก์กับ BigQuery

อาจต้องใช้เวลาถึง 1 วันกว่าตารางจะพร้อมใช้งาน โดยขึ้นอยู่กับวิธีที่คุณเลือกส่งออกข้อมูล ดูข้อมูลเพิ่มเติมเกี่ยวกับการส่งออกข้อมูลโปรเจ็กต์ไปยัง BigQuery ได้ที่หัวข้อส่งออกข้อมูลโปรเจ็กต์ไปยัง BigQuery

เข้าถึงข้อมูลการทดสอบ A/B ใน BigQuery

ก่อนค้นหาข้อมูลสำหรับการทดสอบหนึ่งๆ คุณควรรับข้อมูลบางส่วนหรือทั้งหมดต่อไปนี้มาใช้ในคำค้นหา

  • รหัสการทดสอบ: คุณดูรหัสนี้ได้จาก URL ของหน้าภาพรวมการทดสอบ ตัวอย่างเช่น หาก URL มีลักษณะดังนี้ https://console.firebase.google.com/project/my_firebase_project/config/experiment/results/25 รหัสการทดสอบจะเป็น 25
  • รหัสพร็อพเพอร์ตี้ Google Analytics: นี่คือรหัสพร็อพเพอร์ตี้ Google Analytics 9 หลักของคุณ ซึ่งจะอยู่ใน Google Analytics และจะปรากฏใน BigQuery ด้วยเมื่อคุณขยายชื่อโปรเจ็กต์เพื่อแสดงชื่อตารางเหตุการณ์ Google Analytics (project_name.analytics_000000000.events)
  • วันที่ทดสอบ: หากต้องการเขียนคำค้นหาอย่างรวดเร็วและมีประสิทธิภาพมากขึ้น แนวทางปฏิบัติที่ดีคือจำกัดการค้นหาให้อยู่ในพาร์ติชันตารางเหตุการณ์รายวันของ Google Analytics ที่มีข้อมูลการทดสอบ ซึ่งเป็นตารางที่ระบุด้วยคำต่อท้าย YYYYMMDD ดังนั้น หากการทดสอบทำงานตั้งแต่วันที่ 2 กุมภาพันธ์ 2024 ถึงวันที่ 2 พฤษภาคม 2024 คุณต้องระบุ _TABLE_SUFFIX between '20240202' AND '20240502' ดูตัวอย่างได้ที่เลือกค่าของการทดสอบที่เฉพาะเจาะจง
  • ชื่อเหตุการณ์: โดยปกติแล้ว เหตุการณ์เหล่านี้จะสอดคล้องกับเมตริกเป้าหมายที่คุณกำหนดค่าไว้ในการทดสอบ เช่น in_app_purchase เหตุการณ์, ad_impression หรือ user_retention

หลังจากรวบรวมข้อมูลที่จำเป็นต้องใช้เพื่อสร้างการสืบค้นข้อมูลแล้ว ให้ทำดังนี้

  1. เปิด BigQuery ในคอนโซล Google Cloud
  2. เลือกโปรเจ็กต์ แล้วเลือกสร้างการค้นหา SQL
  3. เพิ่มคำค้นหา ตัวอย่างการค้นหาที่จะใช้ได้ที่สำรวจตัวอย่างการค้นหา
  4. คลิกเรียกใช้

ค้นหาข้อมูลการทดสอบโดยใช้คำค้นหาที่สร้างขึ้นโดยอัตโนมัติของคอนโซล Firebase

หากคุณใช้แผน Blaze หน้าภาพรวมการทดสอบจะแสดงตัวอย่างคำค้นหาที่แสดงชื่อการทดสอบ ตัวแปร ชื่อเหตุการณ์ และจำนวนเหตุการณ์ของการทดสอบที่คุณดูอยู่

หากต้องการรับและเรียกใช้คำค้นหาที่สร้างขึ้นโดยอัตโนมัติ ให้ทำดังนี้

  1. จากคอนโซล Firebase ให้เปิดการทดสอบ A/B แล้วเลือกการทดสอบ A/B Testing ที่ต้องการค้นหาเพื่อเปิดภาพรวมการทดสอบ
  2. จากเมนูตัวเลือก ใต้การผสานรวม BigQuery ให้เลือกข้อมูลการทดสอบการค้นหา การดำเนินการนี้จะเปิดโปรเจ็กต์ใน BigQuery ภายในคอนโซลคอนโซล Google Cloud และมอบการค้นหาพื้นฐานที่คุณใช้ค้นหาข้อมูลการทดสอบได้

ตัวอย่างต่อไปนี้แสดงข้อความค้นหาที่สร้างขึ้นสำหรับการทดสอบที่มี 3 ตัวแปร (รวมถึงเกณฑ์พื้นฐาน) ชื่อ "การทดสอบต้อนรับฤดูหนาว" โดยจะแสดงชื่อการทดสอบที่ใช้งานอยู่ ชื่อตัวแปร เหตุการณ์ที่ไม่ซ้ำ และจำนวนเหตุการณ์ของแต่ละเหตุการณ์ โปรดทราบว่าเครื่องมือสร้างคำค้นหาไม่ได้ระบุชื่อโปรเจ็กต์ไว้ในชื่อตาราง เนื่องจากโปรแกรมดังกล่าวจะเปิดขึ้นภายในโปรเจ็กต์โดยตรง

  /*
    This query is auto-generated by Firebase A/B Testing for your
    experiment "Winter welcome experiment".
    It demonstrates how you can get event counts for all Analytics
    events logged by each variant of this experiment's population.
  */
  SELECT
    'Winter welcome experiment' AS experimentName,
    CASE userProperty.value.string_value
      WHEN '0' THEN 'Baseline'
      WHEN '1' THEN 'Welcome message (1)'
      WHEN '2' THEN 'Welcome message (2)'
      END AS experimentVariant,
    event_name AS eventName,
    COUNT(*) AS count
  FROM
    `analytics_000000000.events_*`,
    UNNEST(user_properties) AS userProperty
  WHERE
    (_TABLE_SUFFIX BETWEEN '20240202' AND '20240502')
    AND userProperty.key = 'firebase_exp_25'
  GROUP BY
    experimentVariant, eventName

หากต้องการตัวอย่างการค้นหาเพิ่มเติม โปรดไปที่หัวข้อสำรวจตัวอย่างการค้นหา

สำรวจตัวอย่างการค้นหา

ส่วนต่อไปนี้จะมีตัวอย่างข้อความค้นหาที่คุณใช้เพื่อดึงข้อมูลการทดสอบ A/B Testing จากตารางเหตุการณ์ Google Analytics ได้

แยกค่าเบี่ยงเบนมาตรฐานของการซื้อและการทดสอบจากการทดสอบทั้งหมด

คุณสามารถใช้ข้อมูลผลการทดสอบเพื่อยืนยันผลลัพธ์ Firebase A/B Testing ได้อย่างอิสระ คำสั่ง BigQuery SQL ต่อไปนี้จะดึงข้อมูลตัวแปรการทดสอบ จำนวนผู้ใช้ที่ไม่ซ้ำในแต่ละตัวแปร และรวมรายได้ทั้งหมดจากเหตุการณ์ in_app_purchase และ ecommerce_purchase รวมถึงค่าเบี่ยงเบนมาตรฐานสำหรับการทดสอบทั้งหมดภายในระยะเวลาที่ระบุเป็นวันที่เริ่มต้นและสิ้นสุดของ _TABLE_SUFFIX คุณสามารถใช้ข้อมูลที่ได้รับจากคำค้นหานี้กับโปรแกรมสร้างนัยสำคัญทางสถิติสำหรับการทดสอบ t แบบด้านเดียวเพื่อยืนยันว่าผลลัพธ์ที่ Firebase ให้ตรงกับการวิเคราะห์ของคุณเอง

ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีคำนวณ A/B ในการคำนวณการอนุมานได้ที่ตีความผลการทดสอบ

  /*
    This query returns all experiment variants, number of unique users,
    the average USD spent per user, and the standard deviation for all
    experiments within the date range specified for _TABLE_SUFFIX.
  */
  SELECT
    experimentNumber,
    experimentVariant,
    COUNT(*) AS unique_users,
    AVG(usd_value) AS usd_value_per_user,
    STDDEV(usd_value) AS std_dev
  FROM
    (
      SELECT
        userProperty.key AS experimentNumber,
        userProperty.value.string_value AS experimentVariant,
        user_pseudo_id,
        SUM(
          CASE
            WHEN event_name IN ('in_app_purchase', 'ecommerce_purchase')
              THEN event_value_in_usd
            ELSE 0
            END) AS usd_value
      FROM `PROJECT_NAME.analytics_ANALYTICS_ID.events_*`
      CROSS JOIN UNNEST(user_properties) AS userProperty
      WHERE
        userProperty.key LIKE 'firebase_exp_%'
        AND event_name IN ('in_app_purchase', 'ecommerce_purchase')
        AND (_TABLE_SUFFIX BETWEEN 'YYYYMMDD' AND 'YYYMMDD')
      GROUP BY 1, 2, 3
    )
  GROUP BY 1, 2
  ORDER BY 1, 2;

เลือกค่าของการทดสอบที่ต้องการ

ตัวอย่างการค้นหาต่อไปนี้จะแสดงวิธีรับข้อมูลสำหรับการทดสอบที่เฉพาะเจาะจงใน BigQuery การค้นหาตัวอย่างนี้แสดงชื่อการทดสอบ ชื่อตัวแปร (รวมถึงเกณฑ์พื้นฐาน) ชื่อเหตุการณ์ และจำนวนเหตุการณ์

  SELECT
    'EXPERIMENT_NAME' AS experimentName,
    CASE userProperty.value.string_value
      WHEN '0' THEN 'Baseline'
      WHEN '1' THEN 'VARIANT_1_NAME'
      WHEN '2' THEN 'VARIANT_2_NAME'
      END AS experimentVariant,
    event_name AS eventName,
    COUNT(*) AS count
  FROM
    `analytics_ANALYTICS_PROPERTY.events_*`,
    UNNEST(user_properties) AS userProperty
  WHERE
    (_TABLE_SUFFIX BETWEEN 'YYYMMDD' AND 'YYYMMDD')
    AND userProperty.key = 'firebase_exp_EXPERIMENT_NUMBER'
  GROUP BY
    experimentVariant, eventName

ข้อจำกัด

การทดสอบ A/B จำกัดอยู่ที่การทดสอบทั้งหมด 300 รายการ การทดสอบที่ทำงานอยู่ 24 รายการ และการทดสอบฉบับร่าง 24 รายการ ขีดจำกัดเหล่านี้จะแชร์กับการเปิดตัวการกำหนดค่าระยะไกล ตัวอย่างเช่น หากคุณมีการเปิดตัวที่กำลังดำเนินอยู่ 2 รายการ และกำลังดำเนินการทดสอบอยู่ 3 รายการ คุณสามารถมีการเปิดตัวหรือการทดสอบเพิ่มเติมได้สูงสุด 19 รายการ

  • หากคุณมีการทดสอบถึงขีดจำกัดทั้งหมด 300 รายการหรือถึงขีดจำกัดการทดสอบฉบับร่าง 24 รายการ คุณต้องลบการทดสอบที่มีอยู่ก่อนที่จะสร้างการทดสอบใหม่

  • หากถึงขีดจํากัดการทดสอบและการเปิดตัวที่ทํางานอยู่ 24 รายการ คุณต้องหยุดการทดสอบหรือการเปิดตัวที่ทํางานอยู่ก่อนที่จะเริ่มการทดสอบใหม่

การทดสอบหนึ่งๆ จะมีตัวแปรได้สูงสุด 8 รายการ (รวมตัวแปรพื้นฐาน) และมีพารามิเตอร์ได้สูงสุด 25 รายการสำหรับแต่ละตัวแปร การทดสอบสามารถมีขนาดได้สูงสุดประมาณ 200 KiB ซึ่งรวมถึงชื่อตัวแปร พารามิเตอร์ตัวแปร และข้อมูลเมตาการกำหนดค่าอื่นๆ