When the Memory Gate Met a Real Archive: What 90 Experiments Taught Us About Cheap LLM Slop
개요
Flamehaven Verification Ledger는 90건 이상의 실험 데이터를 공개하며 마주친 '저렴한 LLM 슬롭' 문제를 해결하기 위해 MICA(Memory Invocation and Context Archive) 시스템을 도입하고 검증 과정을 구조화한 경험을 공유합니다.
주요 내용
* Flamehaven Verification Ledger의 구성:
* EQA (Equation-to-Artifact): 물리학 및 수학 재현 기록 (56건).
* BAV (Biomolecular AI Validation): 단백질 접힘(Protein-folding) AI 모델 검증 기록 (34건, 6개 활성 카드).
* BSC (Bioscience Compliance): 외부 위험 분류 체계(MIT AI Risk Repository, EU AI Act) 준수 감사 기록 (2건).
* 총 300건 이상의 파일로 구성되며, AI 유지보수 담당자가 수동으로 검토하기에는 규모가 큽니다.
* EQA 레인에서 발견된 프레이밍 드리프트 (Framing Drift):
* 계산 결과 자체는 정확했으나, 웹사이트 상에서 'PASS' 배지가 실제 검증 실행 없이 보고서 파일 존재만으로 부여되는 문제가 발생했습니다.
* 원래 56건 중 7건만이 실제 엔진 실행을 통한 검증이었으나 51건이 'PASS'로 표시되었습니다.
* 규칙: 녹색 PASS 배지는 실제 임계값 검사를 통해서만 부여되어야 하며, 보고서 파일의 존재만으로는 PASS가 될 수 없습니다.
* 과학 아카이브의 '용서 예산' 부재:
* 블로그 게시물이나 README와 달리, 과학 아카이브는 인용을 목적으로 하므로 약간의 과장이나 표기 오류가 심각한 downstream paper citation 오류로 이어질 수 있습니다.
* LLM은 글쓰기에 유용하지만 SMILES string, DOI, AlphaFold pLDDT 값 등 검증이 어려운 객체에 대해서는 위험할 수 있습니다.
* 웹사이트 내부 상태 중복의 실패 (State Duplication):
* 웹사이트 (js/portal.js)에 각 기록의 폴백(fallback) 복사본을 포함했으나, 디스크 상의 파일은 변경되는데 자바스크립트 내 복사본은 업데이트되지 않아 151개의 불일치가 발생했습니다.
* 규칙: 브라우저 코드 내에 레코드의 인라인 복사본을 포함하여 배포하지 않습니다.
* 플레이북(Playbook)의 역할:
* 기계 판독 가능한 계약(Contract)만으로는 전달되지 않는 규칙의 이유와 과거 실패 사례를 설명하여 유지보수 담당자의 이해와 실수를 방지합니다.
* 예: 64비트 부동소수점의 언더플로우(underflow)로 인한 오류 사례, 기록 데이터 파일 수정 대신 새 레코드 생성 링크 규칙 등.
* MICA의 역할 및 거부 메커니즘:
* MICA는 세션 시작 시 실행되는 Python validator와 패키지 형식으로, 계약, 플레이북, 신뢰도 문서를 로드하고 11가지 구조적 검사를 수행합니다.
* 주요 거부 조건:
* 반쪽짜리 패키지 (계약 필드 누락, 레이어 부재 등).
* 계약과 파일 시스템 간의 불일치 (이름 변경 누락 등).
* 책임 소재가 없는 중요 규칙 (규칙의 근거가 된 실패 사례 기록 누락).
* 유효하지 않은 패키지 참조 (깨진 상호 참조).
* 모든 검사를 통과하면 'CLOSED CONTRACT' 상태를, 실패하면 'INCOMPLETE' 상태를 출력하여 수정 전까지 코드 작성을 거부합니다.
* MICA가 거부할 수 없는 항목:
* 정상 범위 내의 그럴듯한 위조 값 (예: 실제 값처럼 보이는 가짜 pLDDT).
* 명시된 용어 목록 외의 새로운 홍보 패턴.
* '\[synthetic]' 태그가 삭제된 위조 표시.
* 잘못된 논문을 가리키는 실제 DOI.
* 잘못된 것으로 프레임화된 올바른 계산 (EQA의 'PASS' 오류와 같은 형태).
* 학습 내용 및 미해결 과제:
* LLM 유지보수 담당자를 고려할 때 Markdown 정책만으로는 부족하며, 규칙 목록, 플레이북, validator, 워크플로우가 통합된 운영 계약을 형성해야 합니다.
* 게이트(Gate)는 코드 작성이 시작되기 전에 실행될 때 가장 효과적입니다.
* 파이프라인은 '저렴한 슬롭'만 거부하며, 분자 검증, 단백질 접힘 확인, DOI 검사 등 '비싼 슬롭'은 여전히 외부 검토(peer review)에 의존해야 합니다.
* 미해결 과제: 웹사이트 분류기의 오타 감지 실패, 위조 표시 필터 우회 가능성, DOI 미검증, 프레이밍 오류 재발 가능성. MICA validator 자체의 실제 프로덕션 거부 로그는 아직 없습니다.
시사점
MICA 시스템은 '저렴한 슬롭'을 효과적으로 걸러내어 유지보수 담당자의 주의를 진정으로 중요한 '비싼 슬롭'에 집중시킬 수 있도록 설계되었습니다. 이를 통해 과학 아카이브의 신뢰성을 높이고, LLM 사용 환경에서의 데이터 무결성을 강화하는 구조적 접근 방식을 제시합니다.
댓글
GitHub Discussions