Por que n=50.000 mentiu para mim: a armadilha estatística por trás de uma falsa vantagem setorial
개요
LLM 출력 데이터를 분석할 때 범람하는 데이터 양 때문에 발생하는 통계적 함정과 데이터 수집 과정에서의 기술적 오류가 잘못된 결론을 도출할 수 있음을 보여준다.
주요 내용
* 1. n=50,000은 유효한 샘플 크기가 아님: 50,000개 이상의 응답이 있었지만, 동일한 프롬프트에 대한 반복적인 응답은 독립적인 관찰이 아니며, 효과적인 샘플 크기는 훨씬 작고 군집화되어야 함. 이 군집을 고려했을 때 핀테크와 리테일 간의 통계적 유의미한 차이가 발견되지 않음.
* 2. 앵커 개체의 효과(Anchor Entity Effect): 특정 분야의 데이터가 소수의 지배적인 브랜드(앵커 개체)에 의해 과도하게 좌우될 수 있음. 핀테크 분야에서 Nubank가 압도적인 비중을 차지하며, 이를 제거하면 핀테크 분야의 수치가 크게 변동하여 해당 분야 자체의 선호도가 아니었음을 시사함.
* 3. 데이터 잘림(Truncation)으로 인한 메트릭 오염: 데이터 수집 시 응답 텍스트가 200자로 잘리는 문제가 발생했으며, 이는 LLM의 응답이 텍스트의 앞부분에 집중되는 경향을 측정하게 만들어 브랜드 선호도 데이터를 왜곡시켰음. Perplexity 엔진의 완전한 텍스트를 분석했을 때, Nubank의 지배력이 과장되었음을 확인하고 앵커 개체들이 텍스트의 후반부에 나타나는 경향을 발견함.
시사점
LLM 출력 데이터를 분석할 때는 대규모 데이터에 대한 섣부른 일반화나 표면적인 수치에 의존하지 않고, 데이터의 군집 구조, 특정 개체의 영향력, 그리고 데이터 수집 및 처리 과정에서의 잠재적 오류를 면밀히 검토해야 한다.
댓글
GitHub Discussions