เกี่ยวกับการทดสอบ A/B ของ Firebase

หน้านี้ให้ข้อมูลโดยละเอียดเกี่ยวกับวิธีการทำงานของ Firebase A/B Testing เพื่อช่วยให้คุณได้รับผลลัพธ์การทดสอบที่มีความเกี่ยวข้องและมีประโยชน์สูงสุด

ขนาดตัวอย่าง

Firebase A/B Testing การอนุมานไม่จําเป็นต้องระบุขนาดตัวอย่างขั้นต่ำก่อนเริ่มการทดสอบ โดยทั่วไปแล้ว คุณควรเลือกระดับการทดสอบที่ใหญ่ที่สุดที่รู้สึกสบายใจ ตัวอย่างที่มีขนาดใหญ่ขึ้นจะเพิ่มโอกาสในการพบผลลัพธ์ที่มีนัยสำคัญทางสถิติ โดยเฉพาะเมื่อความแตกต่างของประสิทธิภาพระหว่างตัวแปรมีน้อย นอกจากนี้ คุณอาจพบว่าการปรึกษาเครื่องคำนวณขนาดตัวอย่างออนไลน์เพื่อหาขนาดตัวอย่างที่แนะนําตามลักษณะของการทดสอบมีประโยชน์

แก้ไขการทดสอบ

คุณสามารถแก้ไขพารามิเตอร์ที่เลือกของการทดสอบที่ทํางานอยู่ได้ ซึ่งรวมถึง

  • ชื่อการทดสอบ
  • คำอธิบาย
  • เงื่อนไขการกําหนดเป้าหมาย
  • ค่าของตัวแปร

วิธีแก้ไขการทดสอบ

  1. เปิดหน้าผลการทดสอบที่ต้องการแก้ไข
  2. จากเมนูเพิ่มเติม ให้เลือกแก้ไขการทดสอบที่ทํางานอยู่
  3. ทำการเปลี่ยนแปลงที่ต้องการ แล้วคลิกเผยแพร่

โปรดทราบว่าการเปลี่ยนแปลงลักษณะการทํางานของแอประหว่างการทดสอบที่ทํางานอยู่อาจส่งผลต่อผลลัพธ์

ตรรกะการมอบหมายตัวแปรของการกำหนดค่าระยะไกล

ระบบจะกําหนดผู้ใช้ที่ตรงกับเงื่อนไขการกําหนดเป้าหมายการทดสอบทั้งหมด (รวมถึงเงื่อนไขเปอร์เซ็นต์การแสดงโฆษณา) ให้กับตัวแปรการทดสอบตามน้ำหนักตัวแปรและแฮชของรหัสการทดสอบและรหัสการติดตั้ง Firebase ของผู้ใช้

Google Analyticsกลุ่มเป้าหมายจะขึ้นอยู่กับเวลาในการตอบสนองและอาจไม่พร้อมใช้งานทันทีที่ผู้ใช้มีคุณสมบัติตรงตามเกณฑ์กลุ่มเป้าหมายในตอนแรก

  • เมื่อคุณสร้างกลุ่มเป้าหมายใหม่ ระบบอาจใช้เวลารวบรวมผู้ใช้ใหม่ 24-48 ชั่วโมง
  • โดยปกติแล้ว ระบบจะลงทะเบียนผู้ใช้ใหม่ในกลุ่มเป้าหมายที่มีสิทธิ์ภายใน 24-48 ชั่วโมงหลังจากที่ผู้ใช้มีสิทธิ์

สําหรับการกําหนดเป้าหมายตามเวลา ให้พิจารณาใช้Google Analyticsพร็อพเพอร์ตี้ผู้ใช้หรือตัวเลือกการกําหนดเป้าหมายในตัว เช่น ประเทศหรือภูมิภาค ภาษา และเวอร์ชันแอป

เมื่อผู้ใช้เข้าสู่การทดสอบ ระบบจะกําหนดให้ผู้ใช้อยู่ในตัวแปรการทดสอบนั้นตลอดไปและจะได้รับค่าพารามิเตอร์จากการทดสอบตราบใดที่การทดสอบยังคงทํางานอยู่ แม้ว่าพร็อพเพอร์ตี้ผู้ใช้จะเปลี่ยนแปลงและผู้ใช้ไม่เป็นไปตามเกณฑ์การกําหนดเป้าหมายการทดสอบอีกต่อไป

เหตุการณ์การเปิดใช้งาน

เหตุการณ์การเปิดใช้งานการทดสอบจะจํากัดการวัดการทดสอบไว้ที่ผู้ใช้แอปที่ทริกเกอร์เหตุการณ์การเปิดใช้งาน เหตุการณ์การเปิดใช้งานการทดสอบไม่มีผลใดๆ ต่อพารามิเตอร์การทดสอบที่แอปดึงข้อมูล ผู้ใช้ทุกคนที่มีคุณสมบัติตรงตามเกณฑ์การกําหนดเป้าหมายการทดสอบจะได้รับพารามิเตอร์การทดสอบ ดังนั้น คุณจึงควรเลือกเหตุการณ์การเปิดใช้งานที่เกิดขึ้นหลังจากดึงข้อมูลและเปิดใช้งานพารามิเตอร์การทดสอบแล้ว แต่ก่อนที่จะใช้พารามิเตอร์การทดสอบเพื่อแก้ไขลักษณะการทํางานของแอป

น้ำหนักของตัวแปร

ในระหว่างการสร้างการทดสอบ คุณสามารถเปลี่ยนน้ำหนักเริ่มต้นของตัวแปรเพื่อกำหนดให้ผู้ใช้กลุ่มทดสอบจำนวนมากขึ้นไปยังตัวแปรได้

ตีความผลการทดสอบ

Firebase A/B Testing ใช้การอนุมานแบบความถี่เพื่อช่วยให้คุณเข้าใจความเป็นไปได้ที่ผลการทดสอบอาจเกิดขึ้นจากความบังเอิญเพียงอย่างเดียว ความน่าจะเป็นนี้แสดงด้วยค่าความน่าจะเป็นหรือค่า P-Value ค่า P-Value คือความน่าจะเป็นที่ความแตกต่างของประสิทธิภาพนี้หรือมากกว่านี้ระหว่างตัวแปร 2 รายการอาจเกิดขึ้นเนื่องจากความน่าจะเป็นแบบสุ่ม หากไม่มีผลจริง โดยวัดจากค่าระหว่าง 0 ถึง 1 A/B Testing ใช้ระดับนัยสำคัญ 0.05 เพื่อให้ได้ผลลัพธ์ดังนี้

  • ค่า P-Value ที่น้อยกว่า 0.05 บ่งชี้ว่าหากความแตกต่างที่แท้จริงเป็น 0 โอกาสที่ความแตกต่างที่สังเกตได้นี้จะเกิดขึ้นแบบสุ่มมีน้อยกว่า 5% เนื่องจาก 0.05 เป็นเกณฑ์ ค่า P-Value ที่น้อยกว่า 0.05 จะบ่งบอกถึงความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างตัวแปร
  • ค่า P-Value ที่มากกว่า 0.05 บ่งชี้ว่าความแตกต่างระหว่างตัวแปรไม่มีนัยสำคัญทางสถิติ

ระบบจะรีเฟรชข้อมูลการทดสอบวันละครั้ง และเวลาอัปเดตล่าสุดจะปรากฏที่ด้านบนของหน้าผลการทดสอบ

กราฟผลลัพธ์การทดสอบจะแสดงค่าเฉลี่ยสะสมของเมตริกที่เลือก เช่น หากคุณติดตามรายได้จากโฆษณาต่อผู้ใช้เป็นเมตริก ระบบจะแสดงรายได้ที่สังเกตได้ต่อผู้ใช้ และหากคุณติดตามผู้ใช้ที่ไม่มีข้อขัดข้อง ระบบจะติดตามเปอร์เซ็นต์ของผู้ใช้ที่ไม่พบข้อขัดข้อง ข้อมูลนี้เป็นการสะสมตั้งแต่เริ่มต้นการทดสอบ

ผลลัพธ์จะแบ่งออกเป็นข้อมูลที่ได้รับและข้อมูลอนุมาน ระบบจะคํานวณข้อมูลที่สังเกตได้โดยตรงจากข้อมูล Google Analytics และข้อมูลการอนุมานจะให้ค่า p และช่วงความเชื่อมั่นเพื่อช่วยคุณประเมินความสำคัญทางสถิติของข้อมูลที่สังเกตได้

สถิติต่อไปนี้จะแสดงสําหรับเมตริกแต่ละรายการ

ข้อมูลที่สังเกต

  • ค่าทั้งหมดของเมตริกที่ติดตาม (จํานวนผู้ใช้ที่คงไว้ จํานวนผู้ใช้ที่ขัดข้อง รายได้ทั้งหมด)
  • อัตราเฉพาะเมตริก (อัตราการคงผู้ใช้ไว้ อัตรา Conversion รายได้ต่อผู้ใช้)
  • เปอร์เซ็นต์ส่วนต่าง (การเพิ่ม) ระหว่างตัวแปรกับเกณฑ์พื้นฐาน

ข้อมูลการอนุมาน

  • ช่วงความเชื่อมั่น 95% (ความแตกต่างของค่าเฉลี่ย) จะแสดงช่วงที่มีค่า "จริง" ของเมตริกที่ติดตามด้วยความเชื่อมั่น 95% เช่น หากการทดสอบให้ค่า CI 95% สําหรับรายได้ทั้งหมดโดยประมาณอยู่ระหว่าง $5 ถึง $10 แสดงว่ามีโอกาส 95% ที่ความแตกต่างของค่าเฉลี่ยจริงจะอยู่ระหว่าง $5 ถึง $10 หากช่วง CI รวม 0 ไว้ด้วย ระบบจะไม่พบความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างตัวแปรและกลุ่มฐาน

    ค่าช่วงความเชื่อมั่นจะปรากฏในรูปแบบที่ตรงกับเมตริกที่ติดตาม เช่น เวลา (ใน HH:MM:SS) สําหรับการคงผู้ใช้ไว้ ดอลลาร์สหรัฐสําหรับรายได้จากโฆษณาต่อผู้ใช้ และเปอร์เซ็นต์สําหรับอัตรา Conversion

  • ค่า P-Value ซึ่งแสดงถึงโอกาสที่จะเห็นข้อมูลที่มีค่าสุดขั้วเท่ากับผลลัพธ์ที่ได้จากการทดสอบ โดยสมมติว่าไม่มีความแตกต่างที่แท้จริงระหว่างตัวแปรกับกลุ่มฐาน ยิ่งค่า P-Value ต่ำ ระดับความเชื่อมั่นว่าประสิทธิภาพที่สังเกตได้จะยังคงเป็นจริงหากเราทําการทดสอบซ้ำก็จะยิ่งสูงขึ้น ค่า 0.05 หรือต่ำกว่าบ่งชี้ถึงความแตกต่างที่มีนัยสำคัญและโอกาสต่ำที่ผลลัพธ์จะเกิดขึ้นโดยบังเอิญ ค่า p อิงตามการทดสอบแบบหาค่ามัธยฐานของกลุ่มตัวอย่างข้างเดียว โดยที่ค่าตัวแปรมากกว่าค่าฐาน Firebase ใช้การทดสอบ t-test แบบความแปรปรวนไม่เท่ากันสําหรับตัวแปรต่อเนื่อง (ค่าตัวเลข เช่น รายได้) และการทดสอบ z-test ของอัตราส่วนสําหรับข้อมูล Conversion (ค่าแบบไบนารี เช่น การรักษาผู้ใช้ไว้ ผู้ใช้ที่ไม่พบข้อขัดข้อง ผู้ใช้ที่ทริกเกอร์เหตุการณ์ Google Analytics)

ผลลัพธ์การทดสอบจะแสดงข้อมูลเชิงลึกที่สําคัญสําหรับตัวแปรการทดสอบแต่ละรายการ ซึ่งรวมถึงข้อมูลต่อไปนี้

  • เมตริกการทดสอบแต่ละรายการสูงกว่าหรือต่ำกว่าเกณฑ์พื้นฐานเท่าใด ตามที่วัดโดยตรง (นั่นคือข้อมูลที่สังเกตได้จริง)
  • ความเป็นไปได้ที่ความแตกต่างที่พบระหว่างตัวแปรและกลุ่มฐานอาจเกิดขึ้นจากความบังเอิญ (ค่า P-Value)
  • ช่วงที่มีแนวโน้มที่จะแสดงความแตกต่างด้านประสิทธิภาพ "จริง" ระหว่างตัวแปรกับโฆษณาฐานสําหรับเมตริกการทดสอบแต่ละรายการ ซึ่งเป็นวิธีทําความเข้าใจสถานการณ์ประสิทธิภาพ "กรณีที่ดีที่สุด" และ "กรณีที่เลวร้ายที่สุด"

ตีความผลลัพธ์ของการทดสอบที่ Google Optimize ขับเคลื่อน

Firebase A/B Testing ผลลัพธ์ของการทดสอบที่เริ่มก่อนวันที่ 23 ตุลาคม 2023 มาจาก Google Optimize Google Optimize ใช้การอนุมานแบบ Bayesian เพื่อสร้างสถิติที่มีประโยชน์จากข้อมูลการทดสอบ

ผลลัพธ์จะแบ่งออกเป็น "ข้อมูลที่ได้จากการสังเกต" และ "ข้อมูลโดยประมาณ" ข้อมูลที่ได้จากการสังเกตคำนวณมาจากข้อมูลวิเคราะห์โดยตรง และข้อมูลโดยประมาณได้มาจากการใช้แบบจำลองเบย์เซียนกับข้อมูลสังเกตการณ์

สถิติต่อไปนี้จะแสดงสําหรับเมตริกแต่ละรายการ

ค่าที่สังเกตได้

  • มูลค่าทั้งหมด (ผลรวมของเมตริกสําหรับผู้ใช้ทั้งหมดในตัวแปร)
  • ค่าเฉลี่ย (ค่าเฉลี่ยของเมตริกสําหรับผู้ใช้ในตัวแปร)
  • % ส่วนต่างจากเกณฑ์พื้นฐาน

ข้อมูลโดยประมาณ

  • ความน่าจะเป็นที่จะสูงกว่าเกณฑ์พื้นฐาน: ความเป็นไปได้ที่เมตริกของตัวแปรนี้จะสูงกว่าเกณฑ์พื้นฐาน
  • เปอร์เซ็นต์ส่วนต่างจากเกณฑ์พื้นฐาน: อิงตามค่าประมาณของเมตริกสำหรับตัวแปรและเกณฑ์พื้นฐานตามค่ามัธยฐานของโมเดล
  • ช่วงเมตริก: ช่วงที่มีแนวโน้มมากที่สุดที่จะเห็นค่าของเมตริก โดยมีความแน่นอน 50% และ 95%

โดยรวมแล้ว ผลการทดสอบให้ข้อมูลเชิงลึกที่สําคัญ 3 ประการสําหรับตัวแปรแต่ละรายการในการทดสอบ ดังนี้

  1. เมตริกการทดสอบแต่ละรายการสูงกว่าหรือต่ำกว่าเส้นฐานเท่าใดเมื่อวัดโดยตรง (นั่นคือ ข้อมูลที่สังเกตได้จริง)
  2. ความเป็นไปได้ที่เมตริกการทดสอบแต่ละรายการจะสูงกว่าเกณฑ์พื้นฐาน / ดีที่สุดโดยรวม โดยอิงตามการอนุมานแบบเบย์ (ความน่าจะเป็นที่จะดีกว่า / ดีที่สุดตามลำดับ)
  3. ช่วงที่น่าเชื่อถือสําหรับเมตริกการทดสอบแต่ละรายการที่อิงตามการอนุมานแบบเบย์เซียน ซึ่งได้แก่ สถานการณ์ "กรณีที่ดีที่สุด" และ "กรณีที่เลวร้ายที่สุด" (ช่วงที่น่าเชื่อถือ)

การกำหนดผู้นำ

สําหรับการทดสอบที่ใช้การอนุมานแบบความถี่ Firebase จะประกาศว่าตัวแปรหนึ่งๆ มีประสิทธิภาพดีกว่าหากประสิทธิภาพของตัวแปรนั้นแตกต่างอย่างมีนัยสำคัญทางสถิติกับโฆษณาฐานในเมตริกเป้าหมาย หากมีตัวแปรหลายรายการทำได้ตามเกณฑ์ ตัวแปรที่ได้ค่า P-Value ต่ำสุดจะได้รับเลือก

สําหรับการทดสอบที่ใช้ Google Optimize Firebase จะประกาศว่าตัวแปรหนึ่งๆ "มีประสิทธิภาพเหนือกว่าอย่างชัดเจน" หากมีโอกาสมากกว่า 95% ที่จะมีประสิทธิภาพดีกว่าตัวแปรฐานในเมตริกหลัก หากตัวแปรหลายรายการมีคุณสมบัติตรงตามเกณฑ์ "ผู้นำที่ชัดเจน" ระบบจะติดป้ายกำกับเฉพาะตัวแปรที่มีประสิทธิภาพดีที่สุดโดยรวมว่าเป็น "ผู้นำที่ชัดเจน"

เนื่องจากการระบุโฆษณาที่ทำได้เหนือกว่าจะอิงตามเป้าหมายหลักอย่างเดียว คุณควรพิจารณาปัจจัยทั้งหมดที่เกี่ยวข้องและดูผลเมตริกรองก่อนตัดสินใจว่าจะเปิดตัวตัวแปรที่ทำได้เหนือกว่าหรือไม่ คุณอาจต้องพิจารณาถึงผลลัพธ์ที่คาดหวังจากการเปลี่ยนแปลง ความเสี่ยงที่อาจเกิดขึ้น (เช่น ระดับล่างของช่วงความเชื่อมั่นสำหรับการปรับปรุง) และผลกระทบต่อเมตริกอื่นๆ นอกเหนือจากเป้าหมายหลัก

ตัวอย่างเช่น หากเมตริกหลักคือผู้ใช้ที่ไม่พบข้อขัดข้อง และตัวแปร A มีประสิทธิภาพเหนือกว่ากลุ่มฐานอย่างชัดเจน แต่เมตริกการคงผู้ใช้ไว้ของตัวแปร A มีประสิทธิภาพต่ำกว่ากลุ่มฐาน คุณอาจต้องตรวจสอบเพิ่มเติมก่อนที่จะเปิดตัวตัวแปร A ในระดับที่กว้างขึ้น

คุณสามารถเปิดตัวตัวแปรใดก็ได้ ไม่ใช่แค่ตัวแปรที่ทำได้เหนือกว่า โดยอิงตามการประเมินประสิทธิภาพโดยรวมของเมตริกหลักและรอง

ระยะเวลาการทดสอบ

Firebase ขอแนะนําให้ทําการทดสอบต่อไปจนกว่าจะมีคุณสมบัติตรงตามเงื่อนไขต่อไปนี้

  1. การทดสอบรวบรวมข้อมูลได้เพียงพอที่จะให้ผลลัพธ์ที่เป็นประโยชน์ ระบบจะอัปเดตข้อมูลการทดสอบและผลลัพธ์วันละครั้ง คุณอาจต้องปรึกษาเครื่องคำนวณขนาดตัวอย่างออนไลน์เพื่อประเมินขนาดตัวอย่างที่แนะนําสําหรับการทดสอบ
  2. การทดสอบทํางานนานพอที่จะได้ตัวอย่างผู้ใช้ที่เป็นตัวแทนและวัดประสิทธิภาพในระยะยาว รันไทม์ขั้นต่ำที่แนะนําสําหรับการทดสอบการกําหนดค่าระยะไกลทั่วไปคือ 2 สัปดาห์

ระบบจะประมวลผลข้อมูลการทดสอบไม่เกิน 90 วันหลังจากการทดสอบเริ่มต้น หลังจากผ่านไป 90 วัน การทดสอบจะหยุดโดยอัตโนมัติ ระบบจะไม่อัปเดตผลการทดสอบในคอนโซล Firebase อีกต่อไป และการทดสอบจะหยุดส่งค่าพารามิเตอร์เฉพาะการทดสอบ เมื่อถึงจุดนี้ ลูกค้าจะเริ่มดึงข้อมูลค่าพารามิเตอร์ตามเงื่อนไขที่ตั้งไว้ในเทมเพลต Remote Config ระบบจะเก็บข้อมูลการทดสอบที่ผ่านมาไว้จนกว่าคุณจะลบการทดสอบ

สคีมา BigQuery

นอกจากดูข้อมูลการทดสอบ A/B Testing ในคอนโซล Firebase แล้ว คุณยังตรวจสอบและวิเคราะห์ข้อมูลการทดสอบใน BigQuery ได้ด้วย แม้ว่า A/B Testing จะไม่มีตาราง BigQuery แยกต่างหาก แต่ระบบจะจัดเก็บการเป็นสมาชิกของเวอร์ชันทดลองและตัวแปรไว้ในเหตุการณ์ Google Analytics ทั้งหมดภายในตารางเหตุการณ์ Analytics

พร็อพเพอร์ตี้ผู้ใช้ที่มีข้อมูลการทดสอบอยู่ในรูปแบบ userProperty.key like "firebase_exp_%" หรือ userProperty.key = "firebase_exp_01" โดยที่ 01 คือรหัสการทดสอบ และ userProperty.value.string_value มีดัชนี (ฐาน 0) ของตัวแปรการทดสอบ

คุณสามารถใช้พร็อพเพอร์ตี้ผู้ใช้การทดสอบเหล่านี้เพื่อดึงข้อมูลการทดสอบได้ ซึ่งจะช่วยให้คุณแบ่งกลุ่มผลลัพธ์การทดสอบได้หลายวิธีและยืนยันผลลัพธ์ของ A/B Testing ได้อย่างอิสระ

หากต้องการเริ่มต้นใช้งาน ให้ทำตามขั้นตอนต่อไปนี้ตามที่อธิบายไว้ในคู่มือนี้

  1. เปิดใช้การส่งออก BigQuery สำหรับ Google Analytics ในคอนโซล Firebase
  2. เข้าถึงข้อมูล A/B Testing โดยใช้ BigQuery
  3. ดูตัวอย่างการค้นหา

เปิดใช้การส่งออก BigQuery สำหรับ Google Analytics ในคอนโซล Firebase

หากใช้แพ็กเกจ Spark คุณสามารถใช้แซนด์บ็อกซ์ BigQuery เพื่อเข้าถึง BigQuery ได้โดยไม่มีค่าใช้จ่าย ทั้งนี้ขึ้นอยู่กับขีดจำกัดของแซนด์บ็อกซ์ ดูข้อมูลเพิ่มเติมเกี่ยวกับการกำหนดราคาและแซนด์บ็อกซ์ BigQuery

ก่อนอื่น ให้ตรวจสอบว่าคุณส่งออกข้อมูล Analytics ไปยัง BigQuery โดยทำดังนี้

  1. เปิดแท็บการผสานรวม ซึ่งเข้าถึงได้โดยใช้ > การตั้งค่าโปรเจ็กต์ในคอนโซล Firebase
  2. หากคุณใช้ BigQuery กับบริการอื่นๆ ของ Firebase อยู่แล้ว ให้คลิกจัดการ หรือคลิกลิงก์
  3. ตรวจสอบเกี่ยวกับการลิงก์ Firebase กับ BigQuery แล้วคลิกถัดไป
  4. ในส่วนกำหนดค่าการผสานรวม ให้เปิดใช้ปุ่มสลับ Google Analytics
  5. เลือกภูมิภาคและเลือกการตั้งค่าการส่งออก

  6. คลิกลิงก์กับ BigQuery

ระบบอาจใช้เวลาถึง 1 วันเพื่อให้ตารางพร้อมใช้งาน ทั้งนี้ขึ้นอยู่กับวิธีที่คุณเลือกส่งออกข้อมูล ดูข้อมูลเพิ่มเติมเกี่ยวกับการส่งออกข้อมูลโปรเจ็กต์ไปยัง BigQuery ได้ที่ส่งออกข้อมูลโปรเจ็กต์ไปยัง BigQuery

เข้าถึงข้อมูล A/B Testing ใน BigQuery

ก่อนค้นหาข้อมูลสําหรับการทดสอบที่เฉพาะเจาะจง คุณควรรวบรวมข้อมูลต่อไปนี้บางส่วนหรือทั้งหมดเพื่อใช้ในการค้นหา

  • รหัสการทดสอบ: คุณดูรหัสนี้ได้จาก URL ของหน้าภาพรวมการทดสอบ เช่น หาก URL มีลักษณะดังนี้ https://console.firebase.google.com/project/my_firebase_project/config/experiment/results/25 รหัสการทดสอบคือ 25
  • รหัสพร็อพเพอร์ตี้ Google Analytics: รหัสพร็อพเพอร์ตี้ Google Analytics 9 หลัก คุณจะเห็นข้อมูลนี้ใน Google Analytics และข้อมูลนี้จะปรากฏใน BigQuery เมื่อคุณขยายชื่อโปรเจ็กต์เพื่อแสดงชื่อตารางเหตุการณ์ Google Analytics (project_name.analytics_000000000.events) ด้วย
  • วันที่ทดสอบ: หากต้องการเขียนคําค้นหาที่เร็วขึ้นและมีประสิทธิภาพมากขึ้น เราขอแนะนําให้จํากัดการค้นหาไว้ที่พาร์ติชันตารางเหตุการณ์รายวัน Google Analytics ที่มีข้อมูลการทดสอบ ซึ่งเป็นตารางที่ระบุด้วยส่วนต่อท้าย YYYYMMDD ดังนั้น หากการทดสอบเริ่มตั้งแต่วันที่ 2 กุมภาพันธ์ 2024 ถึง 2 พฤษภาคม 2024 คุณจะต้องระบุ _TABLE_SUFFIX between '20240202' AND '20240502' ดูตัวอย่างได้ที่หัวข้อเลือกค่าของการทดสอบที่เฉพาะเจาะจง
  • ชื่อเหตุการณ์: โดยทั่วไปแล้ว ชื่อเหล่านี้จะสอดคล้องกับเมตริกเป้าหมายที่คุณกําหนดค่าในการทดสอบ เช่น in_app_purchase events, ad_impression หรือ user_retention events

หลังจากรวบรวมข้อมูลที่จำเป็นในการสร้างการค้นหาแล้ว ให้ทำดังนี้

  1. เปิด BigQuery ในคอนโซล Google Cloud
  2. เลือกโปรเจ็กต์ แล้วเลือกสร้างการค้นหา SQL
  3. เพิ่มข้อความค้นหา ดูตัวอย่างการค้นหาที่จะเรียกใช้ได้ที่หัวข้อดูตัวอย่างการค้นหา
  4. คลิกเรียกใช้

ค้นหาข้อมูลการทดสอบโดยใช้คําค้นหาที่สร้างขึ้นโดยอัตโนมัติของคอนโซล Firebase

หากคุณใช้แพ็กเกจ Blaze หน้าภาพรวมการทดสอบจะมีตัวอย่างการค้นหาที่แสดงชื่อการทดสอบ ตัวแปร ชื่อเหตุการณ์ และจํานวนเหตุการณ์สําหรับการทดสอบที่คุณกําลังดู

วิธีรับและเรียกใช้การค้นหาที่สร้างขึ้นโดยอัตโนมัติ

  1. จากคอนโซล Firebase ให้เปิด A/B Testing แล้วเลือกการทดสอบ A/B Testing ที่ต้องการค้นหาเพื่อเปิดภาพรวมการทดสอบ
  2. จากเมนูตัวเลือก ใต้การผสานรวม BigQuery ให้เลือกค้นหาข้อมูลการทดสอบ ซึ่งจะเปิดโปรเจ็กต์ใน BigQuery ภายในคอนโซล Google Cloud และแสดงการค้นหาพื้นฐานที่คุณใช้เพื่อค้นหาข้อมูลการทดสอบได้

ตัวอย่างต่อไปนี้แสดงคําค้นหาที่สร้างขึ้นสําหรับการทดสอบที่มีตัวแปร 3 รายการ (รวมถึงกลุ่มฐาน) ชื่อ "การทดสอบต้อนรับช่วงฤดูหนาว" โดยจะแสดงชื่อการทดสอบที่ใช้งานอยู่ ชื่อตัวแปร เหตุการณ์ที่ไม่ซ้ำ และจํานวนเหตุการณ์สําหรับแต่ละเหตุการณ์ โปรดทราบว่าเครื่องมือสร้างคําค้นหาไม่ได้ระบุชื่อโปรเจ็กต์ในชื่อตาราง เนื่องจากจะเปิดภายในโปรเจ็กต์โดยตรง

  /*
    This query is auto-generated by Firebase A/B Testing for your
    experiment "Winter welcome experiment".
    It demonstrates how you can get event counts for all Analytics
    events logged by each variant of this experiment's population.
  */
  SELECT
    'Winter welcome experiment' AS experimentName,
    CASE userProperty.value.string_value
      WHEN '0' THEN 'Baseline'
      WHEN '1' THEN 'Welcome message (1)'
      WHEN '2' THEN 'Welcome message (2)'
      END AS experimentVariant,
    event_name AS eventName,
    COUNT(*) AS count
  FROM
    `analytics_000000000.events_*`,
    UNNEST(user_properties) AS userProperty
  WHERE
    (_TABLE_SUFFIX BETWEEN '20240202' AND '20240502')
    AND userProperty.key = 'firebase_exp_25'
  GROUP BY
    experimentVariant, eventName

ดูตัวอย่างการค้นหาเพิ่มเติมได้ในส่วนดูตัวอย่างการค้นหา

ดูตัวอย่างการค้นหา

ส่วนต่อไปนี้แสดงตัวอย่างการค้นหาที่คุณสามารถใช้เพื่อดึงข้อมูลA/B Testingการทดสอบจากตารางเหตุการณ์ Google Analytics

ดึงค่าความเบี่ยงเบนมาตรฐานของการซื้อและการทดสอบจากการทดสอบทั้งหมด

คุณสามารถใช้ข้อมูลผลการทดสอบเพื่อยืนยันFirebase A/B Testingผลลัพธ์อย่างอิสระได้ BigQuery คำสั่ง SQL ต่อไปนี้จะดึงข้อมูลตัวแปรการทดสอบ, จํานวนผู้ใช้ที่ไม่ซ้ำกันในแต่ละตัวแปร และสรุปรายได้ทั้งหมดจากเหตุการณ์ in_app_purchase และ ecommerce_purchase รวมถึงค่าเบี่ยงเบนมาตรฐานสําหรับการทดสอบทั้งหมดภายในช่วงวันที่ที่ระบุเป็นวันที่เริ่มต้นและวันที่สิ้นสุด _TABLE_SUFFIX คุณสามารถใช้ข้อมูลที่ได้จากคําค้นหานี้กับเครื่องมือสร้างนัยสําคัญทางสถิติสําหรับการทดสอบ t แบบหาค่ามัธยฐานเดียวเพื่อยืนยันว่าผลลัพธ์ที่ Firebase ให้ไว้ตรงกับการวิเคราะห์ของคุณเอง

ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีคำนวณการอนุมานของ A/B Testing ได้ที่หัวข้อตีความผลการทดสอบ

  /*
    This query returns all experiment variants, number of unique users,
    the average USD spent per user, and the standard deviation for all
    experiments within the date range specified for _TABLE_SUFFIX.
  */
  SELECT
    experimentNumber,
    experimentVariant,
    COUNT(*) AS unique_users,
    AVG(usd_value) AS usd_value_per_user,
    STDDEV(usd_value) AS std_dev
  FROM
    (
      SELECT
        userProperty.key AS experimentNumber,
        userProperty.value.string_value AS experimentVariant,
        user_pseudo_id,
        SUM(
          CASE
            WHEN event_name IN ('in_app_purchase', 'ecommerce_purchase')
              THEN event_value_in_usd
            ELSE 0
            END) AS usd_value
      FROM `PROJECT_NAME.analytics_ANALYTICS_ID.events_*`
      CROSS JOIN UNNEST(user_properties) AS userProperty
      WHERE
        userProperty.key LIKE 'firebase_exp_%'
        AND event_name IN ('in_app_purchase', 'ecommerce_purchase')
        AND (_TABLE_SUFFIX BETWEEN 'YYYYMMDD' AND 'YYYMMDD')
      GROUP BY 1, 2, 3
    )
  GROUP BY 1, 2
  ORDER BY 1, 2;

เลือกค่าของการทดสอบที่เฉพาะเจาะจง

ตัวอย่างการค้นหาต่อไปนี้แสดงวิธีรับข้อมูลสําหรับการทดสอบที่เฉพาะเจาะจงใน BigQuery การค้นหาตัวอย่างนี้จะแสดงชื่อการทดสอบ ชื่อตัวแปร (รวมถึงกลุ่มฐาน) ชื่อเหตุการณ์ และจํานวนเหตุการณ์

  SELECT
    'EXPERIMENT_NAME' AS experimentName,
    CASE userProperty.value.string_value
      WHEN '0' THEN 'Baseline'
      WHEN '1' THEN 'VARIANT_1_NAME'
      WHEN '2' THEN 'VARIANT_2_NAME'
      END AS experimentVariant,
    event_name AS eventName,
    COUNT(*) AS count
  FROM
    `analytics_ANALYTICS_PROPERTY.events_*`,
    UNNEST(user_properties) AS userProperty
  WHERE
    (_TABLE_SUFFIX BETWEEN 'YYYMMDD' AND 'YYYMMDD')
    AND userProperty.key = 'firebase_exp_EXPERIMENT_NUMBER'
  GROUP BY
    experimentVariant, eventName

จำกัดสูงสุด

A/B Testing จำกัดการทดสอบทั้งหมดไว้ที่ 300 รายการ การทดสอบที่ทํางานอยู่ 24 รายการ และการทดสอบฉบับร่าง 24 รายการ ขีดจํากัดเหล่านี้จะแชร์กับการเปิดตัว Remote Config เช่น หากคุณมีรุ่นที่ใช้งานอยู่ 2 รุ่นและการทดสอบที่ใช้งานอยู่ 3 รายการ คุณจะมีรุ่นหรือเวอร์ชันการทดสอบเพิ่มเติมได้สูงสุด 19 รายการ

  • หากถึงขีดจํากัดการทดสอบทั้งหมด 300 รายการหรือขีดจํากัดการทดสอบฉบับร่าง 24 รายการ คุณต้องลบการทดสอบที่มีอยู่ก่อนสร้างการทดสอบใหม่

  • หากถึงขีดจํากัดการทดสอบและการเปิดตัวที่ใช้งานอยู่ 24 รายการ คุณต้องหยุดการทดสอบหรือการเปิดตัวที่ใช้งานอยู่ก่อนจึงจะเริ่มการทดสอบหรือการเปิดตัวใหม่ได้

การทดสอบมีตัวแปรได้สูงสุด 8 รายการ (รวมเกณฑ์พื้นฐาน) มีพารามิเตอร์ได้สูงสุด 25 รายการสําหรับแต่ละตัวแปร การทดสอบมีขนาดได้สูงสุดประมาณ 200 KiB ซึ่งรวมถึงชื่อตัวแปร พารามิเตอร์ตัวแปร และข้อมูลเมตาการกําหนดค่าอื่นๆ