Debiasing Graph Neural Networks for Recommendation with Causal RL
개요
그래프 신경망(GNN)과 인과 추론을 결합하여 추천 시스템의 관찰 편향(observational bias) 문제를 해결하기 위한 오픈소스 프레임워크가 개발되었습니다.
주요 내용
* 관찰 편향의 문제점: 기존 추천 시스템, 심지어 LightGCN, NGCF와 같은 최신 GNN도 편향된 데이터로부터 학습하며, 인기 항목이 더 자주 노출되어 클릭을 유도하고, 이로 인해 희소 항목이 묻히는 인기 편향(popularity bias)이 강화됩니다.
* 기준 GNN 구현: PyTorch Geometric(PyG)을 사용하여 LightGCN, NGCF, GAT-CF 세 가지 GNN 모델을 구현했습니다. 이 모델들은 표준 지표에서 높은 성능을 보이지만, 편향된 학습 데이터와 동일한 노출 편향을 공유하는 관찰 데이터셋에서 평가할 경우 실제 성능을 제대로 반영하지 못합니다.
* 인과 강화 학습(Causal RL) 기법 적용:
* Inverse Propensity Scoring (IPS): 각 항목의 학습 손실을 노출 확률로 나누어 재조정합니다. 노출이 적은 항목에는 더 높은 그래디언트 신호를 부여하고, 인기 항목은 축소합니다.
* Causal Embeddings (CausE): 편향된 데이터에서 학습한 사실 공간(factual space)과 균일한 노출을 나타내는 반사실 공간(counterfactual space)이라는 두 개의 별도 임베딩 공간을 유지합니다. 불일치 정규화(discrepancy regularizer)를 통해 사실적 표현을 편향되지 않은 반사실적 표현으로 유도하여 노출 분포에 과적합되는 것을 방지합니다.
* Causal Policy Gradient: 추천을 순차적 의사결정 문제로 간주하고 REINFORCE 알고리즘을 사용합니다. 관찰된 보상을 "진정한 선호도(true preference)"와 "인기 편향(popularity bias)"으로 분해하는 인과 보상 설계(Causal Reward Shaping)를 활용합니다. Doubly Robust (DR) 추정 방식을 사용하여 기록된 데이터로부터의 학습 안정성을 높입니다.
* Causal Discovery: Truncated SVD를 노출 행렬에 적용하여 명시적으로 측정되지 않은 잠재적 혼란 요인(latent confounding factors)을 자동으로 식별하고, 이를 보상 설계 과정에 통합합니다.
* 결과: MovieLens 100k 데이터셋에서 LightGCN을 기반으로 비교한 결과, IPS, CausE, Causal PG(DR)와 같은 인과적 기법을 적용했을 때 표준 GNN 대비 측정 지표에서 큰 향상을 기대할 수 있습니다. (단, 편향된 테스트 세트에서는 편향된 학습으로 인해 측정 지표가 낮아질 수 있으며, 실제 성능 향상은 비편향된 로그 데이터에서 평가해야 합니다.)
시사점
GNN은 추천 시스템에서 강력한 도구이지만, 인과 추론 없이는 데이터의 기존 편향을 증폭시킬 뿐입니다. IPS 및 Causal Policy Gradients와 같은 기법을 활용하면 단순한 인기보다는 사용자의 진정한 선호도를 이해하는 추천 시스템을 구축할 수 있습니다.
댓글
GitHub Discussions