논문: KAN: Kolmogorov-Arnold Networks 저자: Liu et al. (MIT, Caltech) 링크: https://arxiv.org/abs/2404.19756


논문 핵심

KAN(Kolmogorov-Arnold Networks)은 MLP의 근본적 대안입니다. 노드에 고정 활성화 함수를 두는 대신, 엣지(연결)에 학습 가능한 함수를 배치합니다.

MLP vs KAN

"KANs have learnable activation functions on edges, while MLPs have fixed activation functions on nodes."

MLP: 고정 활성화(ReLU, GELU) + 학습 가능한 가중치(선형) KAN: 학습 가능한 활성화(B-spline) + 가중치 없음

장점

  • 정확도: 과학적 문제에서 MLP 대비 100배 적은 파라미터로 동일 성능
  • 해석 가능성: 학습된 활성화 함수를 시각화하여 수학적 구조 발견 가능
  • Scaling Law: MLP보다 가파른 스케일링 곡선

한계

  • 대규모 모델에서의 검증 부족
  • 학습 속도가 MLP 대비 느림
  • Transformer와의 통합은 아직 초기 단계

실무 시사점

KAN은 아직 연구 초기 단계이지만, 특히 과학/공학 시뮬레이션, 물리 법칙 발견 등의 분야에서 잠재력이 큽니다. MLP가 유일한 답은 아니라는 관점에서 주목할 만한 연구입니다.