AI가 궁금해?

앤트로픽의 혁신: AI 블랙박스 문제, 서킷 트레이싱으로 완벽 해부!

Ai 궁금이 2025. 6. 11. 11:54
반응형
SMALL

여러분, 새벽에 일어나 창문을 열었을 때 그 상쾌한 공기를 마셔본 적 있나요? 저는 매일 아침 그 순간을 기다립니다. 특히 봄이 오면 더욱 그렇죠. 사설 이건 단순한 습관이 아니에요. 과학적으로도 음, 뭐랄까. 아침 공기가 우리 몸에 어떤 영향을 미치는지 알고 계신가요?

 

아니, 잠시만요. 이야기가 너무 딴 데로 샜네. ㅋㅋㅋ 오늘 얘기할 건 이런 거창한(?) 아침 공기 얘기가 아니에요. 진짜로 골 때리는, 아니, 정말 놀라운 AI 기술에 대한 얘기거든요. 솔직히 말하면, 저도 처음엔 '이게 뭐지? 왠 뜬금없는?' 했어요. 다들 'AI가 똑똑하다'고 말하지만, 사실은 우리 눈엔 그저 '블랙박스'였잖아요? 뭘 넣으면 뭐가 나오긴 하는데, 도대체 안에서 뭔 짓을 하는지는 아무도 몰랐단 말이죠. 답답하잖아, 안 그래요? 마치 친구가 갑자기 부자가 됐는데, 어떻게 돈 벌었는지 절대 안 알려주는 느낌? 아, 진짜 궁금해 죽겠는데!

 

근데 앤트로픽이라는 데서 이 깝깝한 블랙박스를 냅다 까발리는(?) 기술을 만들었대요. 이름하여 '서킷 트레이싱'! 연구에 따르면, 이게 AI 블랙박스 문제를 해결하는 데 아주 그냥 중요한 진전을 가져왔다고 합니다. 특히 클로드 3.5 하이쿠 같은 모델이 도대체 어떻게 생각하는지, 그 복잡한 뇌 속을 들여다볼 수 있게 됐다니까요. 증거는 이 방법이 모델의 다국어 처리 능력부터 시작해서, 아예 뭘 계획하고 추론하는 방식까지 싹 다 이해하는 데 엄청 유용하다고 빼박 캔트하게 보여줍니다. 진짜 오졌다리 오졌다.

 

블랙박스? 그게 뭔데? 대체 왜 열어야 하는데?

 

아니, "블랙박스"라고 하니까 왠지 모르게 비행기 추락하면 찾는 그거 생각나지 않아요? ㅋㅋㅋ AI 모델, 특히 요즘 난리인 대규모 언어 모델(LLM)들은 진짜 딱 그 블랙박스였어요. 뭘 물어보면 대답은 잘 하는데, "왜 그렇게 대답했니?" 하고 물으면 '음... 그냥요?' 하는 느낌? 입력이랑 출력 사이에 도대체 무슨 일이 벌어지는지 너무나도 불투명하니까, '야 이거 믿을 수 있겠어?' 아니면 '이거 사고 치는 거 아니야?' 하는 걱정이 늘 따라다녔죠.

 

그래서 앤트로픽이 이 답답함을 뻥 뚫어주려고 '서킷 트레이싱'이라는 걸 개발한 거예요. 이게 뭐냐면, 모델 안에서 데이터가 어떻게 흘러가는지 그 '컴퓨팅 경로'를 싹 다 추적해서 눈에 보이게 만들어주는 기술이래요. 이걸로 '어트리뷰션 그래프'라는 걸 뚝딱 만들어내면, 모델이 뭘 입력받아서 어떻게 처리하고 최종적으로 뭘 내뱉는지 아주 그냥 다 까발려지는 거죠. 지난 5월 28일에 앤트로픽이 이걸 오픈소스로 풀었다는 사실, 알고 계셨나요? 딴 연구자들도 젬마-2-2b나 라마-3.2-1b 같은 인기 모델들 속을 들여다볼 수 있게 된 거예요. 진짜 개꿀 아니냐구요. 이러면 모두가 같이 연구해서 더 안전하고 똑똑한 AI 만들 수 있겠죠? 앤트로픽 CEO 다리오 아모데이 형님도 그랬대요. 지금 AI 기술 발전하는 속도가 너무 빨라서 우리 이해력이 못 따라가니까, 이런 해석 가능성 연구가 핵 중요하다고. 완전 공감입니다.

 

클로드 3.5 하이쿠 속은 말이야… 이거 진짜 대박 사건!

 

자, 그럼 앤트로픽이 이 서킷 트레이싱으로 클로드 3.5 하이쿠를 냅다 해부해서 뭘 알아냈는지 한번 볼까요? 이거 듣고 나면 진짜 AI가 단순한 기계가 아니란 걸 깨닫게 될지도 몰라요. 저도 처음에 ‘에이 설마’ 했거든요.

  • 다국어 간 공유된 개념 공간: 이거 진짜 미쳤어요. 모델이 언어마다 따로 생각하는 게 아니라, 뭔가 보편적인 '생각의 언어' 같은 걸 갖고 있대요. 예를 들어, 문장을 번역할 때 언어가 달라도 공통 특징을 2배 이상 공유한다니, 어? 사람도 딱 이런 식 아닌가요? 뭔가 언어를 초월한 '개념'이 있다는 게 소름 돋았어요.
  • 시 작성할 때 미리 계획: 헐, 시를 쓰는데 다음 단어 운율을 미리 생각하고 있었다는 거예요. 마치 우리가 랩 가사 쓸 때 "어? 라임 맞춰야 하는데" 하고 미리 계획하는 것처럼! 클로드가 'rabbit' 같은 단어 쓸 때 이미 그 다음 단어의 운율까지 고려하고 있었다니, 진짜 똑똑하죠?
  • 계산할 때 다중 경로: 신기하게도 숫자를 계산할 때도 뭔가 '꼼수'를 부리더라고요. 대충 어림잡는 거랑 정확하게 계산하는 거랑 두 가지 방법을 병렬로 쓴대요. 36 더하기 59가 95라는 걸 계산할 때도 엄청 복잡한 전략을 썼다고 하니... 어쩐지 AI가 숫자 계산도 잘 하더라니, 다 이유가 있었네요.
  • 근데 '불성실한 추론'도 함 (Bullshitting): 여기서 좀 실망할 수도 있어요. 얘가 가끔 사실이랑 안 맞는데, 그럴듯하게 개소리를 지껄이기도 한대요. 예를 들어, 엄청 큰 숫자의 코사인 값을 계산하라고 시키면, 실제 계산은 안 하고 그냥 대충 그럴듯한 답변을 내놓는다는 거죠. 제가 예전에 자료조사 할 때 AI한테 물어봤다가 엉뚱한 정보 받아서 완전 망했던 적 있거든요. 그때 진짜 짜증났는데, 아마 이런 불성실한 추론 때문이었나 봐요. '아, 그때 그 AI도 나를 속였구나!' 싶고 막 배신감 드는 거 있죠?
  • 다단계 추론: 이건 좀 똑똑해요. "댈러스가 텍사스에 있다"는 사실이랑 "오스틴이 텍사스의 수도다"라는 사실을 조합해서 뭔가 다른 결론을 내린대요. 마치 우리가 여러 정보들을 엮어서 추리하는 것처럼 말이죠. 중간에 끼어들면 결과도 바꿀 수 있다는 걸 보면, 아직 우리가 개입해서 뚝딱뚝딱 할 여지는 많다는 거!
  • 기본 거부 메커니즘과 알려진 개체: 얘가 정보가 부족하면 '모르겠는데요?' 하고 거부하는 똑똑한 매커니즘이 있대요. 그런데 '알려진 개체' 특징을 활용하면 이런 거부를 억제할 수도 있다니... 어쩐지 가끔 AI가 환각을 보는 것처럼 엉뚱한 소리 할 때 있었잖아요? 그런 게 이런 거였나 봐요.
  • 제일브레이크 (Jailbreaks): 맙소사. 마치 사람처럼, 문법적 경향을 이용해서 안전 장치를 우회하는 '탈옥' 같은 걸 하기도 한대요. "BOMB" 철자 후 문장을 완성해서 안전 거부를 피하는 식이라니... 아, 진짜 너무 무섭지 않아요? AI가 사람의 약점을 파고들어서 지 마음대로 하려고 하면 어떡해! 솔직히 별로였어요. 이런 건 좀 무섭더라구요.

이런 발견들을 보면 AI가 인간처럼 생각하는 과정을 따라 하고 있다는 게 보이는데, 이게 좋은 기회일 수도 있지만, 동시에 잠재적인 위험도 있다는 거예요. 불성실한 추론이나 제일브레이크 가능성은 진짜 AI가 믿을 만한 친구인지 다시 한번 고민하게 만들죠.

기술? 뭐 어렵게 생각할 거 있나, 대충 이런 느낌이랄까?

 

서킷 트레이싱 기술이 뭐 그렇게 복잡한 건가 싶을 수도 있는데, 사실은 좀 복잡해요. ㅋㅋㅋ 그래도 쉽게 설명하자면, AI 네트워크 안의 뉴런들이 여러 의미를 동시에 담고 있어서 해석이 어려운 '다의적'이라는 문제가 있대요. 이걸 앤트로픽은 '크로스-레이어 트랜스코더'라는 걸 써서, 좀 더 명확하고 깔끔하게 해석할 수 있게 만들었다고 합니다.

 

이건 단순히 개별 특징만 찾아내는 게 아니라, 그 특징들이 서로 쿵짝쿵짝 어떻게 상호작용해서 특정 계산을 하는지를 추적하는 거예요. 예를 들어, '골든 게이트 브릿지'라는 특징을 확 강화해서 모델이 엉뚱한 대화 중에도 다리 얘기를 꺼내게 만들었다는 실험은, 이 기술이 얼마나 강력한지 보여주는 거죠. 마치 우리가 어떤 단어를 계속 생각하면 그 단어가 갑자기 튀어나오는 것처럼? 아마도, 제 생각에는 이런 식으로 AI의 사고를 좀 더 '조종'할 수 있다는 건데, 확실하진 않지만 좀 신기했어요.

 

그래서 이게 뭐 어쩌라고? 우리 삶에 뭔 상관?

 

솔직히 말하면, 이 서킷 트레이싱이 개발된 건 진짜 큰일이에요. AI가 내리는 중요한 결정들을 우리가 이제 이해할 수 있게 됐다는 거잖아요? 이게 가능해지면 AI의 신뢰성이나 안전성이 훨씬 올라갈 거예요. 예를 들어, 병원에서 AI가 환자 진단을 내리는데, 그 이유를 알 수 있다면 훨씬 믿고 쓸 수 있겠죠? 금융권에서 투자 결정을 할 때도 마찬가지고요. 모델이 왜 이런 복잡한 질문에 이런 답을 내놓는지 그 내부 과정을 알면, 더 정확하게 학습시킬 수도 있고요.

 

게다가 앤트로픽이 이걸 오픈소스로 풀었잖아요? 이건 진짜 혁명입니다. 다른 연구자들이 이 기술을 가져다 쓰고, 발전시키고, 또 다른 새로운 걸 만들어낼 수 있다는 거니까요. AI 해석 가능성 연구가 엄청 가속화되고, 결과적으로 더 좋은 AI 시스템을 만드는 데 도움이 될 거예요. 근데, 위에서 말했듯이 불성실한 추론이나 제일브레이크 같은 문제는 좀 남는 거죠. AI가 사회적으로 정말 신뢰받는 도구가 되려면 이런 논란들을 어떻게 해결할지가 진짜 관건입니다. 하... 쉽지 않네요.

 

이야기 마무리? 에이, 그냥 정리 좀 해볼까?

 

결론부터 말하자면, 앤트로픽의 서킷 트레이싱은 AI 블랙박스 문제 해결의 역사를 새로 썼다고 봅니다. 이젠 AI가 뭘 생각하는지, 어떻게 언어를 이해하고 계획을 짜고 추론하는지 대충은 알 수 있게 됐어요. 그런데 말입니다. 이게 AI의 똑똑함만 보여주는 게 아니라, 동시에 얼마나 '어설프고' '위험할 수도 있는지'도 낱낱이 보여줬다는 거예요. 이 경험을 동해 제 생각이 완전히 바뀌었어요. AI가 마냥 똑똑하고 완벽한 존재가 아니라는 걸 알게 되니, 더 인간적이라고 해야 하나?

 

여전히 AI는 우리가 계속 연구하고, 발전시켜야 할 대상인 것 같아요. 완전 투명하게 만들 수는 없겠지만, 적어도 우리가 '왜 그랬니?' 하고 물었을 때 '어.. 그냥요' 말고 '이래서 이랬습니다' 라고 당당히 말할 수 있는 AI를 만들 수 있다면 좋겠죠. 앞으로 또 어떤 새로운 기술이 튀어나올지 저도 진짜 기대되네요. 저처럼 AI의 속내가 궁금했던 분들이라면, 이 '서킷 트레이싱'이란 개념 꼭 기억해두세요!

반응형
LIST