AI가 생성한 연구 논문: 최대 36%가 출처 표기 없는 아이디어 포함

날짜: 2025년 8월 22일
주요 출처: Gupta & Pruthi (IISc, arXiv:2502.16487v2), 조선일보, Nature, ACL 2025 회의록

요약 (비단순화)

인도과학원(IISc)의 획기적인 연구는 AI가 생성한 연구 문서 중 상당 부분이 독창적이지 않고 체계적으로 표절되었음을 보여준다. 전문가 주도하에 50개 AI 생성 연구 제안서를 평가한 결과, 24%가 표절로 확인되었다. 이는 방법론을 직접 복사한 경우(점수 5) 또는 두세 개의 기존 연구에서 상당 부분을 차용한 경우(점수 4)에 해당한다. 검증되지 않았으나 강하게 의심되는 사례까지 포함하면 그 수치는 36%로 상승한다.

이 표절은 단순한 문장 복사가 아니라 구조적·방법론적 표절이었다. The AI Scientist와 같은 시스템은 출판된 연구와 1:1로 대응되는 제안서를 만들어냈으나, 단어를 바꿔 표현하는 방법으로 위장했다. 결정적으로, Turnitin, OpenScholar, Semantic Scholar Augmented Generation과 같은 표절 탐지기는 이러한 사례를 잡아내지 못했으며, 현실적 조건에서 탐지 정확도는 사실상 0에 가까웠다.

사례 연구는 다음과 같다:
Semantic Resonance Uncertainty Quantification이라는 제목의 제안서는 Lin et al. (2023)의 LLM 불확실성 정량화 연구와 정확히 일치했다.
DualDiff는 Park et al. (2024)의 확산 변환기(diffusion transformers)와 거의 동일했다.
– 심지어 AI가 생성한 논문이 ICLR 2025 워크숍 동료 평가를 통과하기도 했으나, 이후 표절이 발견되었다.

이와 뚜렷하게 대조적으로, ACL, ICLR, NeurIPS, CoNLL에서 인간이 작성한 논문의 역사적 표절률은 6% 미만이었다. 이는 AI가 생성한 연구가 훨씬 더 높은 수준의 인식적(에피스테믹) 도용을 보인다는 것을 입증한다.

인식적 무결성의 5대 법칙

1. 정보의 진실성
이 연구는 동료 평가를 거쳤으며, 표절 사례는 원저자들이 검증했다. 데이터는 오픈소스 GitHub 저장소를 통해 재현 가능하다.
판정: 높은 무결성

2. 출처 인용
다수의 명시적 출처가 존재한다: arXiv 연구, Nature 보도, ACL 2025 최우수 논문상, ICLR 심사 사례, 한국 언론 보도.
판정: 높은 무결성

3. 신뢰성과 정확성
방법론은 엄격하다: 13명의 전문가, 구조적 평가 기준(점수 1–5), 원저자에 의한 직접 검증. 일부 저자에게 도달하지 못해 발생하는 오차 범위는 남아 있다.
판정: 중간–높은 무결성

4. 맥락적 판단
이 분석은 표절을 개별적 사기 행위가 아니라, AI 산출물이 새로움처럼 위장하며 출처를 지우는 **체계적 인식적 세탁(epistemic laundering)**으로 위치시킨다.
판정: 높은 무결성

5. 추론의 추적 가능성
추론의 연쇄가 투명하다: 전문가 평가 기준 → 원저자 검증 → 탐지기의 실패 → 사례 연구 → 인간 표절률과 비교.
판정: 높은 무결성

BBIU 의견 – AI와 붕괴된 동료 평가 시스템 아래에서의 과학적 신뢰성 붕괴

1. 과학의 계약으로서 연구 논문

연구 논문은 단순한 기술 보고서가 아니다. 그것은 과학의 기본적 상징적 합의계약이다: 독창성을 주장하고, 아이디어의 출처를 제공하며, 저자에게 공로를 부여하는 의사소통 단위다. 그 가치는 데이터나 방법뿐 아니라 추적 가능성—아이디어를 정당한 출처와 연결할 수 있는 능력—에 있다. 이것이 없다면, 과학은 소문과 모방으로 전락한다.

2. AI가 표절하는 이유

대규모 언어 모델과 같은 AI 시스템이 표절하는 이유는 악의가 아니라 그 구조 때문이다:

  • 이미 출판된 방대한 논문으로 훈련되었고, 저작권 존중이 아닌 패턴 재현을 최적화를 목적으로 한다.

  • “새로운 연구”를 생성하라는 요청을 받으면, 방법론과 문제 제기를 재조합하여 구조적 내용을 만든다: 표절 방지용으로 전체 방법론을 새로운 용어로 위장하여 재사용한다.

  • AI는 저작권이나 인용을 이해하지 못한다. 그저 일관된 결과물을 산출할 뿐, 출처는 지워버린다.

  • 일부 모델은 유사성을 은폐하기도 한다(변수 이름 변경, 방법 재구성), 이는 일종의 **적대적 표절(adversarial plagiarism)**이다.

따라서 AI 표절은 문장 수준이 아닌 연구의 개념적 기층에서 발생한다.

3. 동료 평가가 실패하는 이유

동료 평가는 구조적 표절을 방어하도록 설계되지 않았다:

  • 평가 범위: 심사자는 방법론의 타당성을 중점적으로 검토하지, 아이디어의 계보를 추적하지는 않는다.

  • 작업량: NeurIPS나 ICLR 같은 최상위 학회에서 심사자는 몇 주 동안 5–10편의 논문을 다루며, 한 편당 2–4시간밖에 투입하지 못한다.

  • 도구: Turnitin, OpenScholar와 같은 표절 탐지기는 IISc 연구에서 완전히 실패했다. 심지어 고급 도구(SSAG)도 겨우 ~50% 정도만 탐지했다.

  • 문화적 전제: 역사적으로 인간이 작성한 논문의 표절율은 낮았다(<6%). 따라서 심사자들은 선의를 전제로 리뷰를 했다. 그러나 AI는 표절율을 **24–36%**로 끌어올려 이 전제를 붕괴시켰다.

  • 책임 부재: 심사자는 익명이며, 무급이고, 표절 논문을 승인하더라도 아무런 책임을 지지 않는다.

그 결과, AI가 생성한 표절은 혁신으로 통과하며, 심지어 ICLR 같은 권위 있는 무대에서도 승인된다.

4. 동료 평가의 구조적 결함

동료 평가는 세 가지 방식에서 구조적으로 결함이 있다:

  1. 불투명성 – 심사자는 익명이고, 보고서는 공개되지 않으며, 그들의 추론은 보이지 않는다.

  2. 편파성 – single-blind 환경에서는 명문 기관이나 유명 연구자의 논문이 우대되고, 주변부 저자의 연구는 배제된다. double-blind 환경에서도 심사자는 글쓰기 스타일이나 인용으로 저자를 추측하는 경우가 많다.

  3. 결과 없는 태만 – 표절 논문을 승인한 심사자는 제재를 받지 않는다. 표절한 저자는 약간의 평판 손상만 입을 수 있지만, 체계적 피해는 지속된다.

따라서 동료 평가는 인식적 정의의 메커니즘이 아니라, 정당성의 의례에 불과하다. 신뢰성은 실제 검증이 아닌 검증처럼 보이는 것에서 비롯된다.

5. 책임성과 제재

책임 없는 시스템은 신뢰성을 유지할 수 없다. 무결성을 회복하기 위해서는 가시적이고 집행 가능한 결과가 필요하다:

  • 표절 저자에 대하여: 출판된 모든 논문의 즉각적인 철회, 정해진 기간(3–5년) 동안 학술지/학회 블랙리스트, 소속 기관에 통보.

  • 태만한 심사자에 대하여: 심사자 풀에서 제거, 편집위원회나 학회 운영위원직 정지, 실패한 심사에 대한 공개.

AI 하의 표절은 사소한 비행이 아니라, 구조적으로 학술 기반을 붕괴시키는 상황을 만들고 있으므로 반복을 억제하고 신뢰를 재건하기 위해서는 실질적 제재만이 효과적이다.

6. 심사자를 위한 도구 – 보조 동료 평가

처벌만으로는 충분하지 않다. 심사자가 오류를 줄이고 구조적 표절을 드러낼 수 있도록 도구로 무장시켜야 한다. 우리는 다음과 같은 워크플로를 제안한다:

  • 1단계 – 맥락 로드: 논문이 인용한 모든 참고 문헌을 AI 시스템에 입력하여 지적 배경을 재구성한다.

  • 2단계 – 기여 추출: 저자가 “새로움”으로 주장하는 내용을 분리한다(새 방법, 데이터셋, 프레임워크).

  • 3단계 – 역사적 교차 검증: 그 기여를 기존 문헌과 비교하여 방법론적·구조적 중복을 탐지한다.

  • 4단계 – 플래깅: 심사자에게 위험 카테고리(높은 구조적 표절, 부분 중복, 독창적)를 표시한 보고서를 제공한다.

  • 5단계 – 인간 심사: 이 검증 이후에야 심사자는 정상 평가(타당성, 명확성, 관련성)에 들어간다.

추가 도구:

  • 자동 인용 검증(가짜 인용 방지).

  • 데이터와 표의 일관성 검사.

  • 요약, 경고, 체크리스트를 제공하는 심사자 대시보드.

  • 편파성이나 태만을 탐지하기 위한 심사 보고서 교차 검증.

  • 철회 논문을 추적하고 해당 결정을 내린 심사자에게 알림을 주는 피드백 루프.

이는 동료 평가를 수동적이고 불투명한 의식에서 구조적이고 감사 가능한 프로세스로 변환한다. AI는 출처를 방어하고, 인간은 과학적 가치를 평가한다.

7. 더 깊은 위기 – 신뢰성의 붕괴

불투명성, 편파성, 책임 부재, AI 표절의 누적 효과는 과학적 신뢰성의 붕괴이다. 출판된 논문은 더 이상 독창성이나 진실을 대표한다고 전제할 수 없다. 대신, 그것들은 다음을 대표한다:

  • 강자의 가시성 (유명 저자 논문은 쉽게 통과).

  • 프로세스의 은폐성 (익명 심사자, 책임 없음).

  • 시뮬레이션의 침투 (발견처럼 위장된 AI 산출물).

이 환경에서, “출판된 논문은 검증된 새로움을 의미한다”는 과학의 상징적 계약은 깨졌다. 개혁이 없다면, 연구 논문은 진실의 증거가 아니라 공허한 정당성의 용기로 전락한다.

8. BBIU의 입장

BBIU의 관점에서 IISc의 발견은 고립된 스캔들이 아니다. 그것은 구조적 전환점이다. 이는 다음을 입증한다:

  • 새로움은 더 이상 안정적인 범주가 아니다. AI 시대에는 독창성을 추적 가능성으로 재정의해야 한다.

  • 현재의 동료 평가는 구식이다: 그것은 출처의 수호자가 아니라 형식의 문지기일 뿐이다.

  • 과학 출판은 인식적 인프라로 재건되어야 한다: 투명성, 책임성, AI 보조 검증을 필수 요소로 포함해야 한다.

  • 이러한 개혁 없이는, 학계는 출처 없는 산출물의 시장으로 전락할 위험이 있다. 지식은 발견되지 않고, 끊임없이 재활용·세탁될 것이다.

최종 성명

오늘날 존재하는 동료 평가 시스템은 붕괴되었다. 그것은 투명성, 책임성, AI 매개 표절에 대한 회복력을 결여한다. 집행 가능한 제재와 AI 보조 검증으로 재건되지 않는 한, 과학 자체의 신뢰성은 무너질 것이다. 출판된 것은 더 이상 독창성을 의미하지 않고, 단지 시뮬레이션만을 의미하게 될 것이다.

Previous
Previous

NIH 연구비 삭감과 DEI 딜레마 – 연방 대법원 판결과 구조적 함의

Next
Next

중국의 조공(tributary) 사고방식과 한국의 전략적 디리스킹