เกี่ยวกับการทดสอบ Firebase A/B

เพื่อช่วยให้คุณเพิ่มความเกี่ยวข้องและประโยชน์ของผลการทดสอบได้มากที่สุด หน้านี้ให้ข้อมูลโดยละเอียดเกี่ยวกับวิธีการทำงานของ Firebase A/B Testing

ขนาดตัวอย่าง

การอนุมานการทดสอบ A/B ของ Firebase ไม่จำเป็นต้องระบุขนาดตัวอย่างขั้นต่ำก่อนที่จะเริ่มการทดสอบ โดยทั่วไป คุณควรเลือกระดับการแสดงผลการทดสอบที่ใหญ่ที่สุดที่คุณรู้สึกสบายใจ ขนาดตัวอย่างที่ใหญ่ขึ้นจะเพิ่มโอกาสในการค้นหาผลลัพธ์ที่มีนัยสำคัญทางสถิติ โดยเฉพาะอย่างยิ่งเมื่อความแตกต่างด้านประสิทธิภาพระหว่างตัวแปรมีน้อย คุณอาจพบว่ามีประโยชน์ในการปรึกษาเครื่องคำนวณขนาดตัวอย่างออนไลน์ เพื่อค้นหาขนาดตัวอย่างที่แนะนำตามลักษณะของการทดสอบของคุณ

แก้ไขการทดลอง

คุณสามารถแก้ไขพารามิเตอร์ที่เลือกของการทดสอบที่ทำงานอยู่ได้ ซึ่งรวมถึง:

  • ชื่อการทดลอง
  • คำอธิบาย
  • เงื่อนไขการกำหนดเป้าหมาย
  • ค่าตัวแปร

วิธีแก้ไขการทดสอบ:

  1. เปิดหน้าผลลัพธ์ของการทดสอบที่คุณต้องการแก้ไข
  2. จากเมนู More ให้เลือก แก้ไขการทดสอบที่ทำงานอยู่
  3. ทำการเปลี่ยนแปลง จากนั้นคลิก เผยแพร่

โปรดทราบว่าการเปลี่ยนแปลงพฤติกรรมของแอประหว่างการทดสอบที่ทำงานอยู่อาจส่งผลต่อผลลัพธ์

ตรรกะการกำหนดตัวแปรการกำหนดค่าระยะไกล

ผู้ใช้ที่ตรงกับเงื่อนไขการกำหนดเป้าหมายการทดสอบทั้งหมด (รวมถึงเงื่อนไขเปอร์เซ็นต์การแสดงผล) จะได้รับมอบหมายให้กับรูปแบบการทดสอบตาม น้ำหนักของรูปแบบ และแฮชของรหัสการทดสอบและรหัสการติดตั้ง Firebase ของผู้ใช้

ผู้ชมของ Google Analytics ขึ้นอยู่กับเวลาในการตอบสนองและไม่สามารถใช้งานได้ทันทีเมื่อผู้ใช้มีคุณสมบัติตรงตามเกณฑ์ผู้ชมในตอนแรก:

  • เมื่อคุณสร้างผู้ชมใหม่ อาจต้องใช้เวลา 24-48 ชั่วโมงในการสะสมผู้ใช้ใหม่
  • โดยทั่วไปผู้ใช้ใหม่จะลงทะเบียนเป็นผู้ชมที่มีคุณสมบัติตามที่กำหนดภายใน 24-48 ชั่วโมงหลังจากที่พวกเขามีสิทธิ์

สำหรับการกำหนดเป้าหมายตามเวลา ให้พิจารณาการใช้คุณสมบัติผู้ใช้ของ Google Analytics หรือตัวเลือกการกำหนดเป้าหมายในตัว เช่น ประเทศหรือภูมิภาค ภาษา และเวอร์ชันของแอป

เมื่อผู้ใช้เข้าสู่การทดสอบแล้ว ผู้ใช้จะได้รับมอบหมายตัวแปรการทดสอบอย่างต่อเนื่อง และรับค่าพารามิเตอร์จากการทดสอบตราบใดที่การทดสอบยังคงทำงานอยู่ แม้ว่าคุณสมบัติผู้ใช้จะเปลี่ยนแปลงและไม่ตรงตามเกณฑ์การกำหนดเป้าหมายการทดสอบอีกต่อไป

เหตุการณ์การเปิดใช้งาน

เหตุการณ์การเปิดใช้งานการทดสอบจะจำกัดการวัดผลการทดสอบไว้เฉพาะกับผู้ใช้แอปที่ทำให้เกิดเหตุการณ์การเปิดใช้งาน เหตุการณ์การเปิดใช้งานการทดสอบไม่มีผลกระทบใดๆ ต่อพารามิเตอร์การทดสอบที่แอปดึงข้อมูล ผู้ใช้ทุกคนที่มีคุณสมบัติตรงตามเกณฑ์การกำหนดเป้าหมายการทดสอบจะได้รับพารามิเตอร์การทดสอบ ด้วยเหตุนี้ สิ่งสำคัญคือต้องเลือกเหตุการณ์การเปิดใช้งานที่เกิดขึ้นหลังจากดึงข้อมูลและเปิดใช้งานพารามิเตอร์การทดสอบแล้ว แต่ก่อนที่จะใช้พารามิเตอร์การทดสอบเพื่อแก้ไขพฤติกรรมของแอป

น้ำหนักตัวแปร

ในระหว่างการสร้างการทดสอบ เป็นไปได้ที่จะเปลี่ยนน้ำหนักรูปแบบเริ่มต้นเพื่อวางผู้ใช้การทดสอบเป็นตัวแปรในเปอร์เซ็นต์ที่มากขึ้น

ตีความผลการทดสอบ

การทดสอบ A/B ของ Firebase ใช้ การอนุมานบ่อยครั้ง เพื่อช่วยให้คุณเข้าใจแนวโน้มที่ผลการทดสอบของคุณอาจเกิดขึ้นเนื่องจากโอกาสแบบสุ่มเท่านั้น ความน่าจะเป็นนี้แสดงด้วย ค่าความน่าจะเป็น หรือ ค่า p ค่า p คือความน่าจะเป็นที่ความแตกต่างในประสิทธิภาพระหว่างสองตัวแปรอาจเกิดขึ้นเนื่องจากโอกาสสุ่ม ซึ่งวัดด้วยค่าระหว่าง 0 ถึง 1 การทดสอบ A/B ใช้ระดับนัยสำคัญ 0.05 เพื่อให้:

  • ค่า p น้อยกว่า 0.05 บ่งชี้ถึงความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างตัวแปรต่างๆ ซึ่งหมายความว่าไม่น่าจะเกิดขึ้นโดยบังเอิญ
  • ค่า p ที่มากกว่า 0.05 บ่งชี้ว่าความแตกต่างระหว่างตัวแปรต่างๆ ไม่มีนัยสำคัญทางสถิติ

ข้อมูลการทดสอบจะรีเฟรชวันละครั้ง และเวลาอัปเดตล่าสุดจะปรากฏที่ด้านบนของหน้าผลการทดสอบ

กราฟผลการทดสอบจะแสดงค่าเฉลี่ยสะสมของเมตริกที่เลือก ตัวอย่างเช่น หากคุณกำลังติดตามรายได้จากโฆษณาต่อผู้ใช้เป็นเมตริก เมตริกนี้จะแสดงรายได้ที่สังเกตได้ต่อผู้ใช้ และหากคุณติดตามผู้ใช้ที่ไม่พบข้อขัดข้อง ก็จะติดตามเปอร์เซ็นต์ของผู้ใช้ที่ไม่พบข้อขัดข้อง ข้อมูลนี้เป็นการสะสมตั้งแต่เริ่มต้นการทดสอบ

ผลลัพธ์จะแบ่งออกเป็น ข้อมูลที่สังเกตได้ และ ข้อมูลการอนุมาน ข้อมูลที่สังเกตได้รับการคำนวณโดยตรงจากข้อมูล Google Analytics และข้อมูลการอนุมานจะให้ค่า p และช่วงความเชื่อมั่นเพื่อช่วยคุณประเมินนัยสำคัญทางสถิติของข้อมูลที่สังเกตได้

สำหรับแต่ละเมตริก สถิติต่อไปนี้จะแสดง:

ข้อมูลที่สังเกตได้

  • มูลค่ารวมสำหรับเมตริกที่ติดตาม (จำนวนผู้ใช้ที่คงไว้ จำนวนผู้ใช้ที่ขัดข้อง รายได้ทั้งหมด)
  • อัตราเฉพาะเมตริก (อัตราการรักษา อัตราการแปลง รายได้ต่อผู้ใช้)
  • เปอร์เซ็นต์ความแตกต่าง (เพิ่มขึ้น) ระหว่างตัวแปรและเกณฑ์พื้นฐาน

ข้อมูลอนุมาน

  • CI 95% (ความแตกต่างในค่าเฉลี่ย) จะแสดงช่วงเวลาที่มีค่า "จริง" ของเมตริกที่ติดตามด้วยความเชื่อมั่น 95% ตัวอย่างเช่น หากการทดสอบของคุณให้ผลลัพธ์เป็น CI 95% สำหรับรายได้รวมโดยประมาณระหว่าง $5 ถึง $10 ก็มีโอกาส 95% ที่ความแตกต่างที่แท้จริงในค่าเฉลี่ยจะอยู่ระหว่าง $5 ถึง $10 หากช่วง CI รวม 0 จะตรวจไม่พบความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างตัวแปรและค่าพื้นฐาน

    ค่าช่วงความเชื่อมั่นจะปรากฏในรูปแบบที่ตรงกับเมตริกที่ติดตาม ตัวอย่างเช่น เวลา (ใน HH:MM:SS ) สำหรับการคงผู้ใช้ไว้ USD สำหรับรายได้จากโฆษณาต่อผู้ใช้ และเปอร์เซ็นต์สำหรับอัตรา Conversion

  • ค่า P ซึ่งแสดงถึงความน่าจะเป็นที่ไม่มีความแตกต่างที่แท้จริงระหว่างตัวแปรและค่าพื้นฐาน กล่าวอีกนัยหนึ่ง ความแตกต่างที่สังเกตได้อาจเนื่องมาจากโอกาสสุ่ม ยิ่งค่า p-value ต่ำลง ความเชื่อมั่นที่ว่าประสิทธิภาพที่สังเกตได้ยังคงเป็นจริงในอนาคตก็จะยิ่งสูงขึ้นตามไปด้วย ค่า 0.05 หรือต่ำกว่าแสดงถึงความแตกต่างที่มีนัยสำคัญและมีโอกาสต่ำที่ผลลัพธ์จะเกิดจากโอกาส ค่า P ขึ้นอยู่กับ การทดสอบแบบด้านเดียว โดยที่ค่าตัวแปรมากกว่าค่าพื้นฐาน Firebase ใช้ การทดสอบความแปรปรวนที่ไม่เท่ากัน สำหรับตัวแปรต่อเนื่อง (ค่าตัวเลข เช่น รายได้) และ การทดสอบค่า z ของสัดส่วน สำหรับข้อมูล Conversion (ค่าไบนารี เช่น การรักษาผู้ใช้ ผู้ใช้ที่ไม่มีข้อขัดข้อง ผู้ใช้ที่ทริกเกอร์เหตุการณ์ Google Analytics)

ผลการทดสอบให้ข้อมูลเชิงลึกที่สำคัญสำหรับการทดสอบแต่ละรูปแบบ ซึ่งรวมถึง:

  • เมตริกการทดสอบแต่ละรายการจะสูงหรือต่ำกว่ามากน้อยเพียงใดเมื่อเปรียบเทียบกับเกณฑ์พื้นฐานตามที่วัดโดยตรง (นั่นคือข้อมูลจริงที่สังเกตได้)
  • ความน่าจะเป็นที่ความแตกต่างที่สังเกตได้ระหว่างตัวแปรและค่าพื้นฐานอาจเกิดขึ้นเนื่องจากโอกาสสุ่ม (p-value)
  • ช่วงที่มีแนวโน้มที่จะมีความแตกต่างด้านประสิทธิภาพ "จริง" ระหว่างตัวแปรและเส้นฐานสำหรับเมตริกการทดสอบแต่ละรายการ---วิธีทำความเข้าใจสถานการณ์ด้านประสิทธิภาพ "กรณีที่ดีที่สุด" และ "กรณีที่แย่ที่สุด"

ตีความผลลัพธ์สำหรับการทดสอบที่ขับเคลื่อนโดย Google Optimize

ผลลัพธ์การทดสอบ A/B ของ Firebase สำหรับการทดสอบที่เริ่มก่อนวันที่ 23 ตุลาคม 2023 ขับเคลื่อนโดย Google Optimize Google Optimize ใช้การอนุมานแบบเบย์เพื่อสร้างสถิติเชิงลึกจากข้อมูลการทดสอบของคุณ

ผลลัพธ์จะแบ่งออกเป็น "ข้อมูลที่สังเกตได้" และ "ข้อมูลแบบจำลอง" ข้อมูลที่สังเกตได้รับการคำนวณโดยตรงจากข้อมูลการวิเคราะห์ และข้อมูลแบบจำลองได้มาจากการประยุกต์ใช้แบบจำลองแบบเบย์ของเรากับข้อมูลที่สังเกตได้

สำหรับแต่ละเมตริก สถิติต่อไปนี้จะแสดง:

ข้อมูลที่สังเกตได้

  • มูลค่ารวม (ผลรวมของเมตริกสำหรับผู้ใช้ทั้งหมดในตัวแปร)
  • มูลค่าเฉลี่ย (มูลค่าเฉลี่ยของเมตริกสำหรับผู้ใช้ในตัวแปร)
  • % ความแตกต่างจากพื้นฐาน

ข้อมูลแบบจำลอง

  • ความน่าจะเป็นที่จะเอาชนะเกณฑ์พื้นฐาน: โอกาสที่เมตริกจะสูงกว่าสำหรับตัวแปรนี้เมื่อเทียบกับเกณฑ์พื้นฐาน
  • เปอร์เซ็นต์ความแตกต่างจากเส้นฐาน: อิงตามการประมาณค่ามัธยฐานของเมตริกสำหรับตัวแปรและเส้นพื้นฐาน
  • ช่วงเมตริก: ช่วงที่น่าจะหาค่าของเมตริกได้มากที่สุด โดยมีความเชื่อมั่น 50% และ 95%

โดยรวมแล้ว ผลการทดสอบให้ข้อมูลเชิงลึกที่สำคัญสามประการแก่เราสำหรับแต่ละตัวแปรในการทดสอบ:

  1. เมตริกการทดสอบแต่ละรายการจะสูงหรือต่ำกว่ามากน้อยเพียงใดเมื่อเปรียบเทียบกับเกณฑ์พื้นฐานตามที่วัดโดยตรง (เช่น ข้อมูลจริงที่สังเกตได้)
  2. มีโอกาส มากเพียงใดที่เมตริกการทดสอบแต่ละรายการจะสูงกว่าค่าพื้นฐาน / โดยรวมดีที่สุด โดยอิงจากการอนุมานแบบเบย์ (ความน่าจะเป็นจะดีกว่า / ดีที่สุดตามลำดับ)
  3. ช่วงที่เป็นไปได้สำหรับเมตริกการทดสอบแต่ละรายการตามการอนุมานแบบเบย์ - สถานการณ์ "กรณีที่ดีที่สุด" และ "กรณีที่แย่ที่สุด" (ช่วงเวลาที่น่าเชื่อถือ)

ความมุ่งมั่นของผู้นำ

สำหรับการทดสอบที่ใช้ การอนุมานบ่อยครั้ง Firebase จะประกาศว่าตัวแปรหนึ่งๆ กำลังนำหากมีความแตกต่างด้านประสิทธิภาพที่มีนัยสำคัญทางสถิติระหว่างตัวแปรและเส้นฐานของเมตริกเป้าหมาย หากตัวแปรหลายรายการตรงตามเกณฑ์นี้ ระบบจะเลือกตัวแปรที่มี ค่า p ต่ำสุด

สำหรับการทดสอบที่ใช้ Google Optimize นั้น Firebase ได้ประกาศว่าตัวแปรนั้นมี "ผู้นำที่ชัดเจน" หากมีโอกาสมากกว่า 95% ที่จะดีกว่าตัวแปรพื้นฐานในเมตริกหลัก หากตัวแปรหลายรายการตรงตามเกณฑ์ "ผู้นำที่ชัดเจน" เฉพาะตัวแปรที่มีประสิทธิภาพดีที่สุดโดยรวมเท่านั้นที่จะติดป้ายกำกับเป็น "ผู้นำที่ชัดเจน"

เนื่องจากการกำหนดผู้นำจะขึ้นอยู่กับเป้าหมายหลักเท่านั้น คุณจึงควรพิจารณาปัจจัยที่เกี่ยวข้องทั้งหมดและตรวจสอบผลลัพธ์ของเมตริกรองก่อนตัดสินใจว่าจะเปิดตัวตัวแปรชั้นนำหรือไม่ คุณอาจต้องการพิจารณาข้อดีที่คาดหวังจากการเปลี่ยนแปลง ความเสี่ยงด้านลบ (เช่น จุดต่ำสุดของช่วงความเชื่อมั่นสำหรับการปรับปรุง) และผลกระทบต่อเมตริกอื่นที่ไม่ใช่เป้าหมายหลัก

ตัวอย่างเช่น หากเมตริกหลักของคุณคือผู้ใช้ที่ไม่มีข้อขัดข้อง และตัวแปร A เป็นผู้นำที่ชัดเจนเหนือเกณฑ์พื้นฐาน แต่เมตริกการรักษาผู้ใช้ของตัวแปร A ติดตามการรักษาผู้ใช้ที่เป็นเกณฑ์พื้นฐาน คุณอาจต้องตรวจสอบเพิ่มเติมก่อนเปิดตัวตัวแปร A ในวงกว้างมากขึ้น

คุณเปิดตัวเวอร์ชันใดก็ได้ ไม่ใช่แค่เวอร์ชันชั้นนำ โดยอิงจากการประเมินประสิทธิภาพโดยรวมในเมตริกหลักและรอง

ระยะเวลาการทดสอบ

Firebase แนะนำให้ทำการทดสอบต่อไปจนกว่าจะตรงตามเงื่อนไขต่อไปนี้

  1. การทดสอบได้รับข้อมูลเพียงพอที่จะให้ผลลัพธ์ที่เป็นประโยชน์ ข้อมูลการทดลองและผลลัพธ์จะได้รับการอัปเดตวันละครั้ง คุณอาจต้องการปรึกษาเครื่องคำนวณขนาดตัวอย่างออนไลน์เพื่อประเมินขนาดตัวอย่างที่แนะนำของการทดสอบของคุณ
  2. การทดสอบดำเนินไปนานพอที่จะให้ตัวอย่างที่เป็นตัวแทนของผู้ใช้และวัดประสิทธิภาพในระยะยาว สองสัปดาห์คือรันไทม์ขั้นต่ำที่แนะนำสำหรับการทดสอบการกำหนดค่าระยะไกลทั่วไป

ข้อมูลการทดสอบจะได้รับการประมวลผลเป็นเวลาสูงสุด 90 วันหลังจากเริ่มการทดสอบ หลังจาก 90 วัน การทดสอบจะหยุดโดยอัตโนมัติ ผลการทดสอบไม่ได้รับการอัปเดตในคอนโซล Firebase อีกต่อไป และการทดสอบหยุดส่งค่าพารามิเตอร์เฉพาะการทดสอบ ณ จุดนี้ ไคลเอนต์เริ่มดึงค่าพารามิเตอร์ตามเงื่อนไขที่ตั้งไว้ในเทมเพลตการกำหนดค่าระยะไกล ข้อมูลการทดสอบในอดีตจะยังคงอยู่จนกว่าคุณจะลบการทดสอบ

สคีมา BigQuery

นอกเหนือจากการดูข้อมูลการทดสอบ A/B Testing ในคอนโซล Firebase แล้ว คุณยังตรวจสอบและวิเคราะห์ข้อมูลการทดสอบใน BigQuery ได้อีกด้วย แม้ว่าการทดสอบ A/B จะไม่มีตาราง BigQuery แยกต่างหาก แต่ความเป็นสมาชิกการทดสอบและความเป็นสมาชิกรูปแบบต่างๆ จะถูกจัดเก็บไว้ในเหตุการณ์ Google Analytics ทุกเหตุการณ์ภายในตารางเหตุการณ์ Analytics

พร็อพเพอร์ตี้ผู้ใช้ที่มีข้อมูลการทดสอบอยู่ในรูปแบบ userProperty.key like "firebase_exp_%" หรือ userProperty.key = "firebase_exp_01" โดยที่ 01 คือรหัสการทดสอบ และ userProperty.value.string_value มีดัชนี (เป็นศูนย์) ของ ตัวแปรการทดลอง

คุณสามารถใช้พร็อพเพอร์ตี้ผู้ใช้การทดสอบเหล่านี้เพื่อดึงข้อมูลการทดสอบได้ ซึ่งจะทำให้คุณสามารถแบ่งผลการทดสอบของคุณได้หลายวิธี และตรวจสอบผลลัพธ์ของการทดสอบ A/B ได้อย่างอิสระ

ในการเริ่มต้น ให้ดำเนินการต่อไปนี้ตามที่อธิบายไว้ในคู่มือนี้:

  1. เปิดใช้ BigQuery Export สำหรับ Google Analytics ในคอนโซล Firebase
  2. เข้าถึงข้อมูลการทดสอบ A/B โดยใช้ BigQuery
  3. สำรวจตัวอย่างข้อความค้นหา

เปิดใช้ BigQuery Export สำหรับ Google Analytics ในคอนโซล Firebase

หากคุณใช้แผน Spark คุณสามารถใช้ แซนด์บ็อกซ์ของ BigQuery เพื่อเข้าถึง BigQuery ได้โดยไม่มีค่าใช้จ่าย ทั้งนี้ขึ้นอยู่กับ ขีดจำกัดของแซนด์บ็อกซ์ ดู ราคาและแซนด์บ็อกซ์ BigQuery สำหรับข้อมูลเพิ่มเติม

ขั้นแรก ตรวจสอบให้แน่ใจว่าคุณกำลังส่งออกข้อมูล Analytics ไปยัง BigQuery โดยทำดังนี้

  1. เปิดแท็บ การรวมระบบ ซึ่งคุณสามารถเข้าถึงได้โดยใช้ > การตั้งค่าโครงการ ใน คอนโซล Firebase
  2. หากคุณใช้ BigQuery กับบริการ Firebase อื่นๆ อยู่แล้ว ให้คลิก จัดการ มิฉะนั้น คลิก ลิงก์
  3. ตรวจสอบ เกี่ยวกับการเชื่อมโยง Firebase กับ BigQuery จากนั้นคลิก ถัดไป
  4. ในส่วน กำหนดค่าการรวม ให้ เปิดใช้งานการสลับ Google Analytics
  5. เลือกภูมิภาคและเลือกการตั้งค่าการส่งออก

  6. คลิก ลิงก์ไปยัง BigQuery

ขึ้นอยู่กับวิธีที่คุณเลือกส่งออกข้อมูล อาจใช้เวลาถึงหนึ่งวันกว่าที่ตารางจะพร้อมใช้งาน สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการส่งออกข้อมูลโครงการไปยัง BigQuery โปรดดู ที่ส่งออกข้อมูลโครงการไปยัง BigQuery

เข้าถึงข้อมูลการทดสอบ A/B ใน BigQuery

ก่อนที่จะค้นหาข้อมูลสำหรับการทดสอบที่เฉพาะเจาะจง คุณจะต้องได้รับข้อมูลบางส่วนหรือทั้งหมดต่อไปนี้เพื่อใช้ในการสืบค้นของคุณ:

  • รหัสการทดสอบ: คุณสามารถรับรหัสนี้ได้จาก URL ของหน้า ภาพรวมการทดสอบ ตัวอย่างเช่น หาก URL ของคุณดูเหมือน https://console.firebase.google.com/project/my_firebase_project/config/experiment/results/25 รหัสการทดสอบคือ 25
  • รหัสคุณสมบัติ Google Analytics : นี่คือรหัสคุณสมบัติ Google Analytics 9 หลักของคุณ คุณสามารถค้นหาสิ่งนี้ได้ใน Google Analytics และยังปรากฏใน BigQuery เมื่อคุณขยายชื่อโปรเจ็กต์เพื่อแสดงชื่อตารางเหตุการณ์ Google Analytics ของคุณ ( project_name.analytics_000000000.events )
  • วันที่การทดสอบ: หากต้องการเขียนข้อความค้นหาที่รวดเร็วและมีประสิทธิภาพยิ่งขึ้น แนวทางปฏิบัติที่ดีคือจำกัดข้อความค้นหาของคุณไว้เฉพาะพาร์ติชันตารางเหตุการณ์รายวันของ Google Analytics ที่มีข้อมูลการทดสอบของคุณ ซึ่งเป็นตารางที่ระบุด้วยคำต่อท้าย YYYYMMDD ดังนั้น หากการทดสอบของคุณเริ่มตั้งแต่วันที่ 2 กุมภาพันธ์ 2024 ถึง 2 พฤษภาคม 2024 คุณจะต้องระบุ _TABLE_SUFFIX between '20240202' AND '20240502' ตัวอย่างเช่น โปรดดู เลือกค่าของการทดสอบที่ต้องการ
  • ชื่อเหตุการณ์: โดยทั่วไป ชื่อเหล่านี้จะสอดคล้องกับ เมตริกเป้าหมาย ที่คุณกำหนดค่าไว้ในการทดสอบ ตัวอย่างเช่น เหตุการณ์ in_app_purchase , ad_impression หรือเหตุการณ์ user_retention

หลังจากที่คุณรวบรวมข้อมูลแล้ว คุณต้องสร้างการสืบค้น:

  1. เปิด BigQuery ในคอนโซล Google Cloud
  2. เลือกโปรเจ็กต์ของคุณ จากนั้นเลือก สร้างการสืบค้น SQL
  3. เพิ่มคำถามของคุณ สำหรับตัวอย่างการสืบค้นที่จะเรียกใช้ โปรดดูที่ สำรวจตัวอย่างการสืบค้น
  4. คลิก เรียกใช้

ค้นหาข้อมูลการทดสอบโดยใช้คำค้นหาที่สร้างขึ้นอัตโนมัติของคอนโซล Firebase

หากคุณใช้แผน Blaze หน้า ภาพรวมการทดสอบ จะแสดงข้อความค้นหาตัวอย่างที่ส่งคืนชื่อการทดสอบ ตัวแปร ชื่อเหตุการณ์ และจำนวนเหตุการณ์สำหรับการทดสอบที่คุณกำลังดูอยู่

หากต้องการรับและเรียกใช้แบบสอบถามที่สร้างขึ้นอัตโนมัติ:

  1. จากคอนโซล Firebase ให้เปิด การทดสอบ A/B และเลือกการทดสอบ A/B ที่คุณต้องการค้นหาเพื่อเปิด ภาพรวมการทดสอบ
  2. จากเมนูตัวเลือก ใต้ การผสานรวม BigQuery ให้เลือก สืบค้นข้อมูลการทดสอบ ซึ่งจะเปิดโปรเจ็กต์ของคุณใน BigQuery ภายในคอนโซลคอนโซล Google Cloud และให้คำค้นหาพื้นฐานที่คุณใช้ค้นหาข้อมูลการทดสอบได้

ตัวอย่างต่อไปนี้แสดงข้อความค้นหาที่สร้างขึ้นสำหรับการทดสอบที่มีตัวแปร 3 รายการ (รวมถึงบรรทัดฐาน) ชื่อ "การทดสอบต้อนรับฤดูหนาว" โดยจะแสดงชื่อการทดสอบที่ใช้งานอยู่ ชื่อตัวแปร เหตุการณ์ที่ไม่ซ้ำ และจำนวนเหตุการณ์สำหรับแต่ละเหตุการณ์ โปรดทราบว่าตัวสร้างคิวรีไม่ได้ระบุชื่อโปรเจ็กต์ของคุณในชื่อตาราง เนื่องจากจะเปิดภายในโปรเจ็กต์ของคุณโดยตรง

  /*
    This query is auto-generated by Firebase A/B Testing for your
    experiment "Winter welcome experiment".
    It demonstrates how you can get event counts for all Analytics
    events logged by each variant of this experiment's population.
  */
  SELECT
    'Winter welcome experiment' AS experimentName,
    CASE userProperty.value.string_value
      WHEN '0' THEN 'Baseline'
      WHEN '1' THEN 'Welcome message (1)'
      WHEN '2' THEN 'Welcome message (2)'
      END AS experimentVariant,
    event_name AS eventName,
    COUNT(*) AS count
  FROM
    `analytics_000000000.events_*`,
    UNNEST(user_properties) AS userProperty
  WHERE
    (_TABLE_SUFFIX BETWEEN '20240202' AND '20240502')
    AND userProperty.key = 'firebase_exp_25'
  GROUP BY
    experimentVariant, eventName

สำหรับตัวอย่างการสืบค้นเพิ่มเติม ให้ไปที่ สำรวจตัวอย่างการสืบค้น

สำรวจตัวอย่างข้อความค้นหา

ส่วนต่อไปนี้เป็นตัวอย่างคำค้นหาที่คุณสามารถใช้เพื่อดึงข้อมูลการทดสอบ A/B Testing จากตารางเหตุการณ์ Google Analytics

แยกค่าส่วนเบี่ยงเบนมาตรฐานการซื้อและการทดสอบจากการทดลองทั้งหมด

คุณสามารถใช้ข้อมูลผลการทดสอบเพื่อตรวจสอบผลการทดสอบ A/B ของ Firebase ได้อย่างอิสระ คำสั่ง BigQuery SQL ต่อไปนี้จะแยกรูปแบบการทดสอบ จำนวนผู้ใช้ที่ไม่ซ้ำในแต่ละรูปแบบ และผลรวมของรายได้ทั้งหมดจากเหตุการณ์ in_app_purchase และ ecommerce_purchase และค่าเบี่ยงเบนมาตรฐานสำหรับการทดสอบทั้งหมดภายในช่วงเวลาที่ระบุเป็นวันที่เริ่มต้นและสิ้นสุด _TABLE_SUFFIX คุณสามารถใช้ข้อมูลที่คุณได้รับจากการสืบค้นนี้กับเครื่องสร้างนัยสำคัญทางสถิติสำหรับการทดสอบทีแบบด้านเดียวเพื่อยืนยันว่าผลลัพธ์ที่ Firebase มอบให้นั้นตรงกับการวิเคราะห์ของคุณเอง

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีที่การทดสอบ A/B คำนวณการอนุมาน โปรดดู ตีความผลการทดสอบ

  /*
    This query returns all experiment variants, number of unique users,
    the average USD spent per user, and the standard deviation for all
    experiments within the date range specified for _TABLE_SUFFIX.
  */
  SELECT
    experimentNumber,
    experimentVariant,
    COUNT(*) AS unique_users,
    AVG(usd_value) AS usd_value_per_user,
    STDDEV(usd_value) AS std_dev
  FROM
    (
      SELECT
        userProperty.key AS experimentNumber,
        userProperty.value.string_value AS experimentVariant,
        user_pseudo_id,
        SUM(
          CASE
            WHEN event_name IN ('in_app_purchase', 'ecommerce_purchase')
              THEN event_value_in_usd
            ELSE 0
            END) AS usd_value
      FROM `PROJECT_NAME.analytics_ANALYTICS_ID.events_*`
      CROSS JOIN UNNEST(user_properties) AS userProperty
      WHERE
        userProperty.key LIKE 'firebase_exp_%'
        AND event_name IN ('in_app_purchase', 'ecommerce_purchase')
        AND (_TABLE_SUFFIX BETWEEN 'YYYYMMDD' AND 'YYYMMDD')
      GROUP BY 1, 2, 3
    )
  GROUP BY 1, 2
  ORDER BY 1, 2;

เลือกค่าของการทดสอบเฉพาะ

ตัวอย่างการค้นหาต่อไปนี้แสดงวิธีรับข้อมูลสำหรับการทดสอบเฉพาะใน BigQuery ข้อความค้นหาตัวอย่างนี้ส่งคืนชื่อการทดสอบ ชื่อตัวแปร (รวมถึงข้อมูลพื้นฐาน) ชื่อเหตุการณ์ และจำนวนเหตุการณ์

  SELECT
    'EXPERIMENT_NAME' AS experimentName,
    CASE userProperty.value.string_value
      WHEN '0' THEN 'Baseline'
      WHEN '1' THEN 'VARIANT_1_NAME'
      WHEN '2' THEN 'VARIANT_2_NAME'
      END AS experimentVariant,
    event_name AS eventName,
    COUNT(*) AS count
  FROM
    `analytics_ANALYTICS_PROPERTY.events_*`,
    UNNEST(user_properties) AS userProperty
  WHERE
    (_TABLE_SUFFIX BETWEEN 'YYYMMDD' AND 'YYYMMDD')
    AND userProperty.key = 'firebase_exp_EXPERIMENT_NUMBER'
  GROUP BY
    experimentVariant, eventName

ขีดจำกัด

การทดสอบ A/B จำกัดไว้ที่การทดสอบทั้งหมด 300 รายการ การทดสอบที่ทำงานอยู่ 24 รายการ และการทดสอบฉบับร่าง 24 รายการ

  • หากคุณถึงขีดจำกัดการทดสอบรวม ​​300 รายการหรือขีดจำกัดการทดสอบฉบับร่าง 24 รายการ คุณต้องลบการทดสอบที่มีอยู่ก่อนที่จะสร้างการทดสอบใหม่

  • หากคุณถึงขีดจำกัดการทดสอบที่ทำงานอยู่ 24 รายการ คุณต้องหยุดการทดสอบที่ทำงานอยู่ก่อนที่จะเริ่มการทดสอบใหม่

การทดสอบมีตัวแปรได้สูงสุด 8 ตัว (รวมค่าพื้นฐาน) และพารามิเตอร์ได้สูงสุด 25 ตัวสำหรับแต่ละตัวแปร การทดสอบสามารถมีขนาดได้ถึงประมาณ 200 KiB ซึ่งรวมถึงชื่อตัวแปร พารามิเตอร์ตัวแปร และข้อมูลเมตาการกำหนดค่าอื่นๆ