P값(P-value)란? AB테스트 분석 방법 (AB테스트 계산기, P값 계산기)

Thank you! Your submission has been received!

Oops! Something went wrong while submitting the form.

“이 결과, 정말 믿어도 되는 거야?”

AB 테스트 결과를 보며 이런 생각이 든 적 있으신가요?

클릭률, 전환율, 광고 성과 등 다양한 KPI를 위해 AB 테스트를 자주 실행하지만, 그 결과가 진짜 의미 있는지 판단하기 어려울 때가 많아요. 단순히 “이쪽이 더 높네! 유의미하다고 봐도 되겠어”라고 결론 내리기엔 충분하지 않으니까요.

이번 글에서는 AB 테스트 결과를 제대로 해석하기 위해 필요한 P값(P-value), 신뢰 구간, 효과 크기 개념을 알아보고, 사례와 함께 결과를 분석해볼게요.

1. P값(P-value)이란?

P값(P-value)은 두 그룹(A그룹과 B그룹) 간의 결과 차이가 유의미한지 판단하는데 도움을 주는 지표예요. P값(P-value)을 제대로 이해하려면 귀무가설에 대해 알아야 해요.

귀무가설이란?
- 두 그룹(A와 B) 간 차이가 없다고 가정하는 가설이에요. 즉, A와 B의 클릭률 차이는 단순히 우연에 의해 발생한 것이라는 기본 가정이에요.
P값(P-value)과 귀무가설의 관계
- P값(P-value)은 귀무가설이 맞다(두 그룹 사이에 차이가 없다)는 전제하에, 실험 결과가 우연일 가능성을 나타내는 숫자에요. P값(P-value)이 낮을수록 귀무가설이 맞을 가능성은 줄어들고, 차이가 실제 효과일 가능성이 높아집니다.

예를 들어, 버튼 위치에 따른 클릭률을 비교하는 실험에서 A와 B의 결과가 다음과 같다고 해볼게요

A 그룹: 100명 중 6명이 클릭 (클릭률 6%)
B 그룹: 100명 중 10명이 클릭 (클릭률 10%)

B 그룹의 클릭률이 A 그룹보다 더 높게 나왔지만, 100명 중 4명 차이가 정말로 의미 있는 차이인지, 아니면 단순히 우연히 생긴 차이인지 궁금할 수 있죠. 이럴 때 P값(P-value)을 확인하면, 이 차이가 우연이 아닌지 판단할 수 있습니다.

2. 유의수준: P값(P-value), 어느정도여야 유의미할까?

그렇다면 P값(P-value)이 어느 정도로 낮아야 실험 결과가 유의미하다고 볼 수 있을까요?

이 기준을 유의 수준이라고 합니다. 유의 수준은 실험의 신뢰도와 정확성의 중요성에 따라 결정되며, 설정해둔 유의 수준보다 P값(P-value)이 작으면 결과가 유의미하다고 해석해요.

일반적으로 AB 테스트같은 프로덕트 테스트에서는 유의 수준을 0.05(5%)로 설정해요. 그러나 신뢰도가 특히 중요한 의학이나 금융 분야에서는 유의 수준을 더 엄격하게 0.01(1%) 미만으로 설정하기도 합니다.

즉, 유의 수준은 절대적인 값이 아니며, 테스트 결과의 정확성이 얼마나 중요한지와 그로 인해 발생할 리스크가 어느 정도인지에 따라 더 낮거나 높게 조정할 수 있어요.

3. AB테스트 결과 더 정확히 분석하기

P값(P-value)으로 테스트의 성공 여부를 판단했다면, 이후 테스트를 실패하거나 성공한 이유를 구체적으로 분석할 때는 업리프트(효과 크기)와 신뢰 구간 지표를 함께 살펴보는 경우가 많아요. 업리프트와 신뢰 구간이 P값(P-value)을 계산하는 기본 요소이기 때문에, 결과가 실제로 의미 있는 변화인지, 그리고 그 결과가 일관성 있게 나타났는지 더 구체적으로 분석하는 데 중요한 역할을 해요.

업리프트(효과 크기)는 두 집단 간의 차이가 얼마나 실질적으로 얼마나 큰 영향을 미치는지를 나타내는 지표에요. 두 그룹의 차이가 실제 비즈니스에 중요한지를 평가해요. 업리프트(효과 크기)가 크면 비즈니스 성과에 의미 있는 변화를 가져올 가능성이 높다고 판단할 수 있습니다.

신뢰 구간은 실험 결과가 실제 값에 얼마나 가까운지를 추정하는 범위예요. 결과의 일관성을 평가하는 척도로 사용돼요. 신뢰 구간이 좁을수록 결과가 일관적이라고 볼 수 있고 넓을수록 추가 데이터가 필요할 수 있어요.

P값(P-value), 업리프트(효과 크기), 신뢰 구간은 요즘 쉽게 계산해주는 사이트와 도구가 많아서 직접 계산할 필요가 없어요. ABTasty, VWO, Optimizely 등의 AB테스트 툴에서 자동으로 결과를 계산해주니, 이 지표들의 개념을 잘 이해하고 해석하는 방법을 아는 것이 더 중요해요.

VWO 통계적 유의성 계산하기 >>

4. 함께 분석해보는 AB테스트 결과

온라인 교육 플랫폼의 AB 테스트

한 온라인 교육 플랫폼은 강의 상세 페이지를 수정하여 강의 구매 전환율을 높이고자 했어요. 기존 그룹(A)에서는 강의 소개와 수강료만 표시되고, 새로운 그룹(B)에서는 커리큘럼과 강사 정보를 추가하여 두번의 테스트를 진행했어요.

두개의 테스트 중 어떤 테스트가 더 유의미한 결과라고 말할 수 있을까요?

첫 번째 테스트에서는 A그룹과 B그룹의 전환율이 각각 5%와 5.5%로, 0.5%의 차이가 있고,

두 번째 테스트에서는 A그룹과 B그룹의 전환율이 각각 10%와 15%로, 5%의 차이가 나타났어요.

그렇다면 두번째 테스트가 전환율 차이가 크니 “두 번째 테스트가 더 유의미하다”라고 결론 내리면 될까요?

P값(P-value) 계산기로 두 결과를 확인해볼게요.

P값 계산하기 > VWO AB Test Calculator

여기서 주목해야 할 점은 단순히 업리프트(효과 크기)만으로는 실험 결과를 정확히 판단할수 없다는거에요. 샘플 사이즈가 작으면 데이터가 우연에 의해 쉽게 왜곡되고 신뢰도가 떨어질 수 있어요.

이런 경우 충분한 샘플 사이즈를 확보하면 변동성을 줄이고 더 정확한 결과를 얻을 수 있어요.

따라서 실험의 성공 여부를 평가할 때는 신뢰 구간과 효과 크기를 반영한 P값(P-value)을 확인해, 통계적으로 유의미한지를 판단하는 것이 중요해요.

‍

이번 글에서는 P값(P-value) 개념을 살펴보고 AB 테스트 결과를 더 깊이 분석하는 방법을 함께 알아봤어요. 어렵게 느껴졌던 AB 테스트 결과 해석이 조금 더 쉬워지셨기를 바랍니다.

이러한 결과 분석을 위해서는 AB 테스트 전문 툴의 활용이 중요해요. 전문 툴 없이 진행하면 데이터 수집과 통계적으로 유의미한 결과 해석에 어려움이 있을 수 있거든요. AB 테스트를 통해 근거 있는 의사 결정을 내리고 효과적인 프로덕트 그로스를 하고싶으시다면, 언제든 이메일을 남겨주세요🫶🏻

‍