[10월의 AI 트렌드] 대형언어모델이 논리적 추론을 하지 않는다고?!

News/AI 트렌드

[10월의 AI 트렌드] 대형언어모델이 논리적 추론을 하지 않는다고?!

skbd 2024. 11. 13. 11:17

글: SK브로드밴드 AIX R&D팀 전혜윤 매니저

안녕하세요.

10월의 주요 AI 이슈로 돌아왔습니다!

대형언어모델이 논리적 추론을 하지 않는다는 애플의 연구 결과가 발표되었어요.

논리적 추론 없이 AI가 어떻게 답변하는지 궁금하시다구요?

그럼 애플의 연구결과와 AI 관련 다른 소식들을 세세히 알려드리겠습니다!

<목차>

애플 “LLM 추론 능력이 좋아진게 아니라 패턴 매칭이 향상된 것”

구글, 장기 컨텍스트 추론 벤치마크 ‘미켈란젤로’ 공개

구글, AI 에이전트 ‘자비스’ 12월 공개 예정, “제미나이 기반 웹브라우저 전용”

수츠케버 "10년간 AI 주도한 스케일링 법칙 넘을 것...안전한 초지능 개발이 목표"

음성 받아 적어주는 오픈AI '위스퍼'에서 환각 문제 발견

👉🏻 위의 목차 중 원하시는 주제명을 클릭하시면, 해당 본문으로 바로 이동할 수 있습니다

애플 “LLM 추론 능력이 좋아진게 아니라 패턴 매칭이 향상된 것”

1. Summary: 대형언어모델(LLM)이 실제로 논리적 추론을 하지 않고, 학습 데이터에서 관찰된 패턴을 복제한다는 연구 결과가 나왔다.

이 연구는 오픈AI의 최신 모델 'o1'도 기존 LLM과 마찬가지로 실제 개념을 이해하지 못한다는 점을 강조한다.

특히 수학 문제 해결 능력에서 약간의 문구 추가나 숫자 변경으로도 모델 성능이 크게 떨어지는 현상을 지적했다.

예를 들어, 단순한 수학 문제를 잘 해결하던 'o1-미니'가, 질문에 작은 추가 정보를 더하자 틀린 답을 도출한 사례가 제시되었다.

연구진은 이러한 현상이 LLM이 문제를 진정으로 이해하지 못하기 때문이라고 분석했다.

오픈AI는 프롬프트 엔지니어링으로 문제를 해결할 수 있다고 반박했지만, 연구진은 복잡한 방해 요소가 등장할 경우 모델의 성능이 급격히 저하될 수 있으며, 프롬프트 엔지니어링은 근본적인 해결책이 아니라고 주장했다.

LLM이 여전히 개념적 이해와 논리적 추론 능력에서 한계가 있다는 지적이다.

2. Implication: 이 연구는 LLM이 실제 추론이 아닌 패턴 복제에 의존하고 있어, 고급 추론을 요구하는 업무에서의 활용이 제한될 수 있음을 보여준다.

AI의 신뢰성 문제가 제기되며, 작은 변화에도 성능이 급격히 저하될 수 있다는 점이 드러났다.

이를 해결하기 위해 단순히 더 많은 데이터나 복잡한 모델이 아닌 새로운 접근이 필요하다.

프롬프트 엔지니어링의 한계도 지적되었으며, 복잡한 문제에서는 효과가 제한적이다.

AI 의존이 윤리적 문제로 이어질 수 있으므로, 신중한 적용이 요구될 것으로 보인다.

무조건적인 AI에 대한 의존보다는 확실한 사전 조사 후 AI를 적용하는 것이 올바른 방향이라고 판단된다.

3. 참고 기사: https://www.aitimes.com/news/articleView.html?idxno=164170

구글, 장기 컨텍스트 추론 벤치마크 ‘미켈란젤로’ 공개

1. Summary: 구글 딥마인드가 긴 컨텍스트 창을 가진 대형언어모델(LLM)의 추론 능력을 평가하기 위한 새로운 벤치마크 ‘미켈란젤로’를 공개했다.

이 벤치마크는 장기 컨텍스트에서 추론 능력 평가에 한계를 가진 기존의 컨텍스트 내 숨겨진 특정 정보를 찾는 검색 작업의 평가 방식을 넘어, 잠재 리스트(Latent List), 다중 라운드 공동 참조 해결(MRCR), 모른다(IDK) 등 3가지 핵심 작업으로 문맥 창 안에서 정보의 관계와 구조를 이해하는 모델의 능력을 평가한다.

미켈란젤로의 작업들은 컨텍스트 추론 평가를 설계하는 일반적인 접근 방식을 제공하며, 이를 임의의 길이로 확장할 수 있는 새로운 프레임워크 ‘잠재 구조 질의(LSQ)’를 기반으로 한다.

이를 통해 10개의 프론티어 LLM을 100만개의 토큰 컨텍스트에 대해 평가한 결과, 제미나이는 MRCR에서, GPT는 잠재 리스트에서, 클로드 3.5 소네트는 IDK에서 가장 높은 점수를 받았다.

하지만 모든 모델이 추론 작업의 복잡성이 증가함에 따라 성능이 크게 떨어지는 경향을 보였다.

이는 현재 LLM들이 대량의 정보를 추론하는 능력에서 여전히 개선의 여지가 있음을 시사한다.

2. Implication: 미켈란젤로 벤치 마크는 현재 LLM 모델들의 장기 컨텍스트 추론 능력을 개선할 필요성을 제시한다.

단순 검색을 넘어 정보 간 관계와 구조를 이해하는 능력이 중요해짐에 따라, 모델 아키텍처와 학습 방법의 혁신이 요구된다.

특히 잠재 리스트, MRCR, IDK 작업은 각각 코드 이해, 대화 맥락 파악, 지식 한계 인식 등 실제 응용에 중요한 능력을 평가하므로, 이를 개선하려는 연구가 필요하다.

계속해서 새로운 모델이 등장함에 따라 LSQ 프레임워크와 같이 새로운 접근 방식이 나타날 것이며, 이는 향후 AI 개발에 중요한 지표가 될 것을 보인다.

3. 참고 기사: https://www.aitimes.com/news/articleView.html?idxno=164132

구글, AI 에이전트 ‘자비스’ 12월 공개 예정, “제미나이 기반 웹브라우저 전용”

1. Summary: 구글에서 올 12월, 새로운 AI 에이전트를 선보인다고 하였다.

프로젝트 코드 명은 ‘자비스’로 아이언맨에 등장하는 에이전트와 이름이 같다.

이는 앤트로픽이 공개한 ‘컴퓨터 유즈’와 유사한 기능을 수행한다. 하나의 차이점은 구글이 개발한 아이템은 크롬 상에서만 동작을 하지만 앤트로픽이 개발한 에이전트는 컴퓨터 전체에서 활용이 가능하다는 점이다.

구글의 에이전트는 일상 웹 기반 작업을 자동화하려는 소비자를 타겟으로 한다고 하였다.

또한 이 에이전트는 OpenAI의 o1과 같이 추론능력을 극대화한 신규 모델이 사용될 것이며, 이 모델은 제미나이의 후속 모델이 될 가능성이 있다고 밝혔다.

2. Implication: 앞선 기사에서도 언급한 바와 같이, 빅 테크 기업들의 연구/개발 흐름이 모델 성능 개선에서 ‘에이전트 화’ 로 변화되고 있다.

이미 OpenAI도 에이전트 개발 완료 후 내부 시연까지 진행한 것으로 보아, 내년 상반기쯤 되면 AI 에이전트 기반의 다양한 서비스들이 대거 출시될 것으로 예상된다.

이러한 에이전트들은 현 시점에서 사용되는 LLM+도구에서 보다 확장된 역할을 수행할 것으로 예상되며,

HCI(Human-computer interaction)을 위한 방법론으로 적용될 것으로 예상된다.

3. 참고 기사: https://www.aitimes.com/news/articleView.html?idxno=164658

수츠케버 "10년간 AI 주도한 스케일링 법칙 넘을 것...안전한 초지능 개발이 목표"

1. Summary: SSI 창립자 일리야 수츠케버가 AGI 개발과 안전한 초지능 구현을 목표로 한다고 밝혔다.

수츠케버는 오픈AI의 수석 과학자로, 샘 알트먼 CEO 축출 사태를 주도하며 유명해졌지만, 이에 앞서 존경받는 AI 기술자 중 한명으로 잘 알려져 있다.

특히, '스케일링(scaling) 가설'의 지지자로 꼽히는데, 이는 AI 학습에 사용하는 데이터와 컴퓨팅이 증가할수록, AI 모델 성능이 증가한다는 내용이다.

하지만 그는 "기존 작업과는 조금 다른 산을 발견했다." 스케일링과 다른 새로운 방식으로 초인공지능을 개발할 계획임을 언급했다.

현재는 주요 작업을 오픈소스로 공개하지 않지만, 향후 일부 안전 작업은 공개할 의향이 있다고 전했다.

그는 SSI를 'AI 안전 회사'로 포지셔닝하며 안전성을 강조했고, 다른 AI 기업들도 결국 AI 안전성 문제에 직면하게 될 것이라 예측했다.

2. Implication: AI 기술 발전에서 안전성 확보가 핵심 과제로 대두되고 있고, 기존 스케일링 방식을 넘어선 새로운 AI 개발 패러다임이 필요한 시점이다.

이런 상황에서 업계를 선두하는 수츠케버와 같은 기술자들이 새로운 방향을 제시하는 것은 매우 중요하며, 이를 꾸준히 확인할 필요가 있다.

특히, 위 프로젝트의 경우AI 기술의 오픈소스 공개와 보안 사이의 균형이 중요한 과제가 될 것으로 보인다.

3. 참고 기사: https://www.aitimes.com/news/articleView.html?idxno=163165

음성 받아 적어주는 오픈AI '위스퍼'에서 환각 문제 발견

1. Summary: 전 세계적으로 널리 사용되고 있는 오픈AI의 음성-텍스트 필사 도구 ‘위스퍼(Whisper)’에서 심각한 환각 문제가 발견됐다는 보도가 나왔다.

미시간대학교 연구진은 10건의 오디오 필사본 중 8건에서 환각, 즉 없는 내용을 지어내는 현상을 발견했다고 발표했다.

또 한 머신러닝 엔지니어는 100시간 이상의 위스퍼 필사본을 연구한 결과, 절반 이상의 필사본에서 환각을 발견했다.

생성 AI의 환각에 대한 지적은 많았지만, 오디오 내용을 충실히 따라야 하는 비교적 단순한 필사 작업에서 이런 문제가 발생한다는 점은 다소 놀랍다는 반응이다.

연구자들은 위스퍼가 왜 환각을 일으키는지 확신하지 못하지만, 주로 일시적인 정지나 배경 소음 또는 음악이 재생되는 중에 발생하는 경향이 있다고 지적했다.

특히 의료 분야에서 위스퍼 기반 도구 활용이 확대되는 가운데, 심각한 결과를 초래할 수 있는 환각 오류에 대한 우려의 목소리가 커지고 있다.

오픈AI는 "환각을 줄이는 등 모델의 정확성을 개선하기 위해 지속적으로 노력하고 있다"라며 "사용 정책에 따라 특정 고위험 의사결정 상황에서는 위스퍼 사용을 금지하고 있다"라고 말했다.

2. Implication: AI 기술의 신뢰성 문제가 단순 필사 작업에서도 발생할 수 있어, AI 시스템 전반의 정확성 검증이 필요할 것으로 보인다.

특히 의료와 같은 중요한 분야에서 AI 도구 사용 시 더욱 엄격한 검증과 감독이 요구될 것이다.

3. 참고 기사: https://www.aitimes.com/news/articleView.html?idxno=164686

오늘 준비한 10월 AI 이슈들, 어떠셨나요?

엔트로픽이 AI 에이전트 ‘자비스’를 공개한 덕분에, 일상 웹 기반 작업이 훨씬 편해지겠네요!

컴퓨터 전체에서 활용이 가능하다니 정말 기대됩니다.

그럼 이만 마무리하며, 다음에도 더 흥미로운 AI 관련 소식들을 발빠르게 가져오겠습니다.

저작자표시 비영리 변경금지