• Sequential testing μ΄λ A/B ν μ€νΈλ₯Ό νλ λμ λ°μ΄ν°κ° λ°μνμ λ, μμ°¨μ μΌλ‘ λͺ¨λν°λ§ν¨μΌλ‘μ¨ μμ¬κ²°μ μ λ΄λ¦¬λ λ°©λ²λ‘ μ λ»νλ€.
• μ΅κ·Ό sequential testing μ κ΄ν λ¬Ένμ΄ μ£Όλͺ©μ λ°κ³ μμ§λ§, λ€μν sequential test μ€ μ΄λ€ κ²μ μ νν΄μΌ ν μ§μ κ΄ν advice λ λ§€μ° μ λ€. μ€ν¬ν°νμ΄λ κ²μ λ°©λ²μ μ νν λ μ΄λ ν κΈ°μ€κ³Ό λͺ©νλ‘ μ νμ μ§ννλμ§ μ€λͺ νκ² λ€.
β’ μ€ν¬ν°νμ΄μ μ€ν νλ«νΌ
• Group sequential test (GSTs) λ₯Ό μ¬μ©νλ€.
• sequential analysis tool μ νμ μν₯μ λ―ΈμΉ 2κ°μ§ μ£Όμ νλΌλ―Έν°
- If your data infrastructure provides data in batch or streaming.
- If you can make reasonable estimates of the maximum sample size an experiment will reach.
• λ°μ΄ν°κ° batch λ¨μλ‘ λ€μ΄μ€λ , streaming λ¨μλ‘ λ€μ΄μ€λ GST λ κ°μ₯ λμ κ²μ λ ₯μ μ 곡ν΄μ€λ€.
• μ€ν¬ν°νμ΄λ μνκ°λ°μνμ μμ΄ μ¦κ±°κΈ°λ°μ μ κ·Όμ μ±ννλ€.
βΈ false positive or false negative rate → μ€νμ λμμΈ νλλ° μμ΄ ν΅μ λμ΄μΌ ν rate
β’ Peeking is a common source of unintended risk inflation
• peeking : μ€ν λλ μ°κ΅¬λ₯Ό μνν λ λ°μ΄ν°λ₯Ό μμ§νλ©΄μ μ€κ° κ²°κ³Όλ₯Ό νμΈνκ±°λ λΆμν΄ μ΄ν λ°μ΄ν° μμ§ λλ λΆμ λ°©ν₯μ±μ κ²°μ νλ κ²μ peeking μ΄λΌ λΆλ₯Έλ€. μ΄λ λΆμμ νλΉμ±μ κ°μμν€κ³ νΈν₯μ±μ λΆμ΄μΌμΌν¬ μ μκΈ° λλ¬Έμ, λΆμ μ peeking μ μ΅μν νλ κ²μ΄ μ€μνλ€.
• z-tests λλ t-testsμ κ°μ λλΆλΆμ νμ€ ν΅κ³ ν μ€νΈλ λ°μ΄ν° μμ§ λ¨κ³κ° λλ ν ν μ€νΈλ₯Ό μ¬μ©νλ κ²½μ°μλ§ μνμ μ ννλ λ°©μμΌλ‘ ꡬμ±λλ€.
• peeking μ μ€νμμ μλͺ»λ 리μ€ν¬ κ΄λ¦¬λ₯Ό μ λ°νλ νν μμΈ μ€ νλμ΄λ€. peeking μ λ°μ΄ν°κ° κ³μ μμ§λλ λμμ z test λ t test μ κ°μ non-sequential ν test κ° λ°λ³΅μ μΌλ‘ μ μ©λ λ, false positive λ₯Ό μ λ°νλ€.
• κ°λ Ή, μλ‘μ΄ pair μ κ΄μΈ‘μΉλ₯Ό μμ§νκ³ , test λ₯Ό μ§ννμ λ κ²°κ³Όκ° μ μνμ§ μμ λ€μ λ λ€λ₯Έ κ΄μΈ‘μΉλ₯Ό λͺ¨μΌκ³ test λ₯Ό μ§ννλ κ³Όμ μ λ°λ³΅νκ² λλ©΄ (peeking), false positive rate μ΄ κΈκ²©ν μ¦κ°νλ€.
β’ Sequential tests solve the peeking problem
• ν΅μ λμ§ μλ peeking μ νΌν΄μΌ νμ§λ§, μ€νμ μν΄ λ°μ΄ν°λ₯Ό μμ§νλ λμ νκ·λ₯Ό λͺ¨λν°λ§νλ κ²λ μ€μνλ€.
• μ€νμ μ£Ό λͺ©νλ μ΅μ’ μ¬μ©μκ° ν μ€νΈ κ²½νμ λΆμ μ μΈ μν₯μ λ°λμ§ μ¬λΆλ₯Ό μ‘°κΈ°μ νμ νλ κ²μ΄λ€. μ΄λ₯Ό μν΄μ false alarm μ μΌμΌν€λ μν μμλ₯Ό ν΅μ νλ κ²μ΄ μ€μνλ€. μ΄λ¬ν peeking νμμ λ°©μ§νκΈ° μν΄, sequential test λ₯Ό μ§νν μ μλ€. sequential test λ λ°μ΄ν°κ° μμ§λ λ κ°μ κ°μ€κ²μ μ λ°λ³΅μ μΌλ‘ νλλΌλ false positive rate μ΄ μ»€μ§λ κ²μ λ°©μ§ν μ μλ€.
β’ μ€ν¬ν°νμ΄κ° μ°κ΅¬νκ³ μ¬μ©νλ λΆμλ°©λ²
βͺ z test μ κ°μ μ ν΅μ μΈ κ²μ λ°©λ²μ μ°μμ μΌλ‘ μ μ©νλ κ²μΌλ‘ λ³Ό μ μλ€.
βͺ μ°μμ μΈ μ¬λ¬ λ²μ κ²μ μ μ΅μ ν νκΈ° μν΄, κ°νμ μΌλ‘ λ°μνλ κ²μ κ° μκ΄κ΄κ³ ꡬ쑰λ₯Ό νμ©νλ€.
• Always valid inference (AVI)
βͺ μ΄λ€ κ°μ€μ λν΄μλ νμ μ ν¨ν κ²°κ³Όλ₯Ό λμΆνλ€. κ²μ κ²°κ³Όλ₯Ό νλ₯ μ μΌλ‘ ν΄μνλ κ²μ΄ μλλΌ, μλ°ν μνμ μΈ μ¦λͺ μ ν΅ν΄ κ²°κ³Όλ₯Ό λμΆνλ€.
β mixture sequential probability ratio test (mSPRT)
β generalization of always valid inference (GAVI)
• corrected-alpha approach (CAA)
βͺ μ¬λ¬ κ°μ κ°μ€κ²μ μ μνν λ, κ° κ²μ μ μ μμμ€μ 보μ νλ λ°©λ² μ€ νλμ΄λ€. Bonferroni correctionκ³Ό μ μ¬νμ§λ§, 보μ λ μ μμμ€μ κ³μ°νλ λ°©λ²μ΄ λ€λ₯΄λ€. μ’ λ μ μ°ν 보μ μ μ§ννλ€.
• Bonferroni corrections as a baseline
βͺ μ¬λ¬ κ°μ€κ²μ μ μνν λ κ²μ μ μ μμ± μμ€μ 보μ νλ λ°©λ² μ€ νλμ΄λ€. κ° κ°μ€κ²μ μ μ μμμ€μ μλ μ μ μμ€μμ κ°μ€κ²μ μ μ λ§νΌ λλμ΄ μ€μΌλ‘μ¨ λ³΄μ νλ€. κ°λ Ή 5κ°μ κ°μ€κ²μ μ μννκ³ μ μμμ€μ 0.05λ‘ μ€μ ν κ²½μ°, κ° κ²μ μ μ μμμ€μ 0.01λ‘ λ³΄μ νλ€. μ΄λ₯Ό ν΅ν΄ μ€λ₯λ₯Ό λ²ν νλ₯ μ κ°μμν¬ μ μλ€. κ·Έλ¬λ κ²μ μ μκ° λ§μμ§μλ‘ μ μμμ€μ΄ λ§€μ° μμμ§λ λ¬Έμ κ° λ°μν μ μλ€.
β’ λ°μ΄ν°κ° μ΄λ»κ² μμ§λλμ§μ λ°λΌ κ²μ λ°©λ²μ μ νμ΄ λ¬λΌμ§λ€.
λκΈ