[8월의 AI 트렌드] 과학 연구를 자율 수행하는 AI 에이전트 등장?!

News/AI 트렌드

[8월의 AI 트렌드] 과학 연구를 자율 수행하는 AI 에이전트 등장?!

skbd 2024. 9. 9. 11:14

글: SK브로드밴드 AIX R&D팀 전혜윤 매니저

안녕하세요.

8월에도 AI 관련해서 새로운 소식들이 많이 전해졌는데요.

과학 연구 주제부터 실험, 논문작성까지 하는 AI 에이전트도 공개되었어요.

그럼 AI 에이전트에 관한 내용과 다른 AI 소식도 자세히 알아볼까요?

<목차>

RAFT: RAG 기법을 활용한 LLM 검색 증강형 미세조정(RAG + FineTuning)

사카나 AI, 과학 연구 자율수행 하는 ‘AI 에이전트’ 공개…”실제 결과는 지켜봐야”

GPT-4o 업데이트 소식에 ‘스트로베리’ 적용 추측 등장

앤트로픽, 클로드 '시스템 프롬프트' 공개..."감탄사로 대답하지 말 것"

새로운 용어 ‘불규칙한 AI’ 등장… “똑똑하지만 멍청한 LLM”

👉🏻 위의 목차 중 원하시는 주제명을 클릭하시면, 해당 본문으로 바로 이동할 수 있습니다.

RAFT: RAG 기법을 활용한 LLM 검색 증강형 미세조정(RAG + FineTuning)

1. Summary: Retrieval Augmented FineTuning(RAFT, 검색-증강 파인튜닝)는 LLM이 특화된 정보를 효율적이고 효과적으로 추가하는 방안에 초점을 맞춘 연구다.

위 그림에서 Closed book Test는 학습된 것 만을 기본으로만 답변하는 FineTuning 형식, Open book Test는 외부 데이터 소스에서 정보를 검색한 후

그 정보를 바탕으로 답변하는 RAG 형식이라면, RAFT는 RAG를 한 단계 더 발전시킨 방법으로 시험 동안 책과 외부 자료를 자유롭게 사용할 수 있을 뿐만 아니라,

정보 검색을 돕는 스마트 검색 시스템을 활용하는 것 과 같다.

RAFT는 LLM이 도메인 특화 질문을 더 잘 처리할 수 있도록 아래 두 가지 주요한 접근 방식을 활용한다.

먼저 선택적 정보 검색은 질문에 관련된 문서만을 집중적으로 살펴보고, 나머지 문서들은 '무시'하도록 가르치는 데 중점을 둔다.

다음과 같이 전체 데이터의 일부(P%)와 나머지((1 − P)%)를 나누는 방식을 사용하여, 문서의 관련성을 판단하고,

다양한 정보 소스로부터 중요한 정보를 추출하여 학습하는 능력을 개발하는 데 도움을 준다.

다음으로 관련 정보 인용은 모델이 이 문서들 중에서 질문에 답하는 데 도움이 되는 정확한 문장을 인용하도록 학습하는 전략이다.

관련도가 높은 문서들로부터 특정 구절을 정확하게 인용할 수 있도록 하여 모델이 단순히 정답을 맞히는 것을 넘어서,

왜 그 답변이 올바른지를 이해하고 설명할 수 있게 함으로써, 모델의 투명성과 신뢰성을 높이는 데 기여한다.

RAFT는 PubMed, HotpotQA, 그리고 Gorilla 데이터셋을 포함한 다양한 데이터셋에서 테스트되었으며,

도메인 특화 설정에서 LLM의 성능을 일관되게 개선하는 것으로 나타났다.

2. Implication: RAFT는 특히 도메인 특화 지식을 통합하고 활용하는 새로운 방법론의 필요성을 강조한다.

이는 정보가 빠르게 변화하는 오늘날의 환경에서 특히 중요한 점으로, 최신 의학 연구 결과나 급변하는 기술 트렌드에 대한 정확한 정보를 제공하는데 도움을 준다.

SKB에서도 비즈니스 도메인에 맞는 LLM을 활용하고자 할 때 위 방식을 적극적으로 고려할 필요가 있어 보인다.

3. 참고 기사: https://gorilla.cs.berkeley.edu/blogs/9_raft.html?utm_source=pytorchkr&ref=pytorchkr

https://arxiv.org/abs/2403.10131?utm_source=pytorchkr&ref=pytorchkr

사카나 AI, 과학 연구 자율수행 하는 ‘AI 에이전트’ 공개…”실제 결과는 지켜봐야”

1. Summary: 구글 ‘Transformer’의 저자 중 하나인 릴리언 존스가 설립한 ‘사카나AI’와 옥스포드 대학교 연구진 등과 협력하여

과학 연구를 자율적으로 수행할 수 있는 AI 에이전트가 등장했다.

이는 스스로 연구 주제를 생각하고 실험을 설계 및 실행하며 결과를 분석해 논문의 형태로 정리한다.

즉, LLM을 사용해 과학 논문을 생성하는 완전 자동화된 파이프라인을 구성한 것이다.

이 에이전트는 초기 코드 베이스로 광범위한 연구 방향성을 입력하면 AI 스스로 후속 과정을 진행한다.

이는 아이디어 생성, 반복 실험, 논문 작성, 논문 검토 등 4가지 주요 프로세스로 구성되어 있으며,

생성 단계에서는 에이전트 스스로 아이디어를 도출하고, AI 학술 검색 엔진인 ‘시맨틱 스칼라’에서 검색을 통해 유사 사례를 탐색한다.

이후 반복 실험을 통해 시각화 플롯을 생성하고, 캡션을 작성하여 논문 작성에 필요한 모든 정보를 제공할 수 있도록 한다.

이후 표준 머신러닝 학회 양식으로 논문을 작성하고, 결과물을 LLM기반 피어리뷰를 수행한다. 이를 반복하여 연구 결과를 반복적 개선할 수 있다.

또한 연구진은 실험 결과 ‘클로드-3-소넷’ 모델이 최고 품질의 논문을 생산했다고 했다.

2. Implication: AI 에이전트란 특정 목표를 자율적으로 수행하는 봇을 의미하며, LLM 개발 이후 다양한 Agent들이 등장하고 있다.

그중 ‘사카나 AI’가 개발한 ‘The AI Scientist’는 세부 기능을 수행하는 여러 Agent들을 만들고, 이를 하나의 파이프라인으로 통합한 것으로 보인다.

위와 같은 자동화 파이프라인은 신규 연구 주제 발굴, 기존 연구에 대한 검증을 수행할 때 유용하게 사용 될 수 있을 것으로 보이나,

이 자체가 실제 과학 발전에 도움이 될지는 지켜봐야 할 듯 하다.

3. 참고 기사: https://www.aitimes.com/news/articleView.html?idxno=162512

GPT-4o 업데이트 소식에 ‘스트로베리’ 적용 추측 등장

1. Summary: 오픈AI가 별다른 예고 없이 GPT-4o 모델을 업데이트하면서 사용자들 사이에서 새로운 추론 기능이 도입되었는지에 대한 의문이 제기됐다.

오픈AI는 이를 부인했지만, 무엇이 바뀌었는지에 대한 정확한 설명을 제공하지 않았다. 일부 사용자들은 챗GPT가 더 나아졌다고 평가하며,

다단계 추론 기능과 더 상세한 프로세스 설명을 제시하는 것을 지적했다. 또한, 새로운 추론 기능 '스트로베리'가 테스트되고 있는 것으로 해석되기도 했다.

일부는 이미지 생성 기능도 개선되었다고 보고 있으며, 이는 GPT-4o의 멀티모달 기능 덕분으로 보인다. 그러나 이에 반대하는 사람들도 있으며,

오픈AI는 결국 업데이트가 새로운 모델이 아닌 개선사항이라고 해명했다.

2. Implication: GPT-4o 업데이트가 사용자 피드백에 따른 것이었다는 점에서, 사용자 경험과 피드백이 AI 기술 개발에 중요한 역할을 한다는 것을 알 수 있다.

AI 모델의 개선 또한 일회성 이벤트가 아니라 지속적인 과정임을 강조한다. 그러나, AI 모델의 업데이트나 개선사항에 대해 명확하고 투명한 설명이 필요하다.

이는 사용자 신뢰를 유지하고 혼란을 방지하는 데 필수적이다.

3. 참고 기사: https://www.aitimes.com/news/articleView.html?idxno=162535

앤트로픽, 클로드 '시스템 프롬프트' 공개..."감탄사로 대답하지 말 것"

1. Summary: 앤트로픽이 '클로드 3.5 소네트'와 '클로드 3 소네트' 및 '하이쿠'와 같은 대형언어모델(LLM)에 적용하는 ‘시스템 프롬프트’를 공개했다.

여기에는 추임새와 같은 감탄으로 문장을 시작하지 말라는 내용이 포함돼 눈길을 끌었다.

앤트로픽은 "윤리적이고 투명한 AI 공급업체로 거듭나기 위한 지속적인 노력의 일환으로 클로드 iOS 및 안드로이드 앱과 웹에 최신 모델 클로드 3.5 오퍼스,

소네트 및 하이쿠에 대한 시스템 프롬프트를 게시한다"라고 밝혔다.

시스템 프롬프트에는 “클로드는 URL, 링크 또는 비디오를 열 수 없다”, “얼굴 인식과 같은 기능도 엄격히 금지된다”, "얼굴을 인식하지 못하는 것처럼 응답해야 한다”,

“사용자로부터 제공받은 이미지나 비디오에서 인간을 식별하거나 이름을 밝혀서는 안 된다” 등이 포함됐다.

또 모델들의 성격 특성도 자세히 설명해 놓았다. 예를 들어, 클로드 오퍼스에 대한 한 프롬프트는 모델이 "인간이 어떤 문제에 대해 어떻게 생각하는지

듣는 것을 즐기는 것처럼" 보이게 하고, "매우 똑똑하고 지적 호기심이 많은" 것처럼 행동하도록 지시했다.

앤트로픽은 “클로드는 사람들의 견해에 동의하지 않더라도, 일단 작업을 돕는다. 이후 더 넓은 시각에 대한 논의를 이어간다”라며

“다수 집단에 대한 부정적인 고정관념을 포함해 어떠한 고정관념에도 관여하지 않는다”라고 설명했다.

알렉스 앨버트 앤트로픽 개발자 관계 책임자는 시스템 프롬프트 공개를 정기적으로 진행할 계획이라고 밝혔다.

2. Implication: 상용 생성형 AI 서비스에 핵심이라고도 할 수 있는 시스템 프롬프트의 공개는 상당히 유의미해 보인다.

특히, 상당히 인기있는 서비스인 Claude의 시스템 프롬프트가 공개된 것은 대고객형 생성형 AI 서비스를 준비하는 기업에게 큰 영향을 줄 것이다.

또한 주기적으로 공개되는 만큼 AI모델의 변화에 따른 프롬프트에 변화에 대해 확인할 수 있어 기술적인 의미 또한 크다.

SKB에서도 다양한 생성형 AI 서비스를 출시할 때, 위 시스템 프롬프트를 참고하여 맞춤형 프롬프트를 구성하고 업데이트 하는 것이 중요할 것이다.

3. 참고 기사: https://www.aitimes.com/news/articleView.html?idxno=162865

새로운 용어 ‘불규칙한 AI’ 등장… “똑똑하지만 멍청한 LLM”

1. Summary: 오픈AI의 공동 창립자 중 하나인 안드레이 카르파시가 대형언어모델(LLM)의 불안정한 성능을 지적하며,

‘들쭉날쭉한(jagged) 인공지능’라는 새로운 용어를 등장시켰다.

그는 “최첨단 LLM은 복잡한 수학 등 매우 어려운 문제를 처리하는 동시에 매우 간단한 문제에서 어려움을 겪는다는 사실을 설명하기 위해 생각해 낸 단어”라고 설명했다.

이는 LLM의 기본 구조와 학습 방법 때문에 일어나는 현상이다. 아무리 복잡한 문제라도 훈련 데이터와 일치하면 간단하게 처리할 수 있지만,

미묘한 구별이 필요하거나 흔하지 않은 시나리오, 모델이 학습한 패턴을 따르지 않는 간단한 논리가 포함될 때 LLM은 어이 없는 대답을 내놓는다.

LLM은 복잡한 부분에서도 추론을 적용할 수 있지만 이는 LLM이 진짜 생각하는 것이 아니라,

이전 맥락을 기반으로 다음에 등장할 단어를 예측하도록 설계되었기 때문이다.

이런 방식은 주관적 해석이 가능한 텍스트 생성에서는 통하지만 정확한 숫자를 밝혀야하는 수학과 같은 분야에서는 오류로 이어진다.

카르파시가 주장한 들쭉날쭉한 AI는 LLM이 극복해야할 주요 과제 중 하나로, 이 문제를 해결하기 위해 다양한 교육 방법, 다양하고 포괄적인 데이터 셋,

그리고 인간의 인지 과정을 잘 모방하는 AGI와 같은 새로운 아키텍처가 필요하다.

2. Implication: 위와 같은 LLM의 특징 파악을 통해 LLM의 정확한 장단점을 파악해 적절한 상황에 사용하는 것이 효과적일 것으로 보인다.

LLM을 사용하려는 상황에 대해서 구체적인 데이터로 모델을 학습하고, 흔하지 않은 시나리오가 발생했을 때 어떻게 답변할지에 대한 고려가 필요하다.

특히, 간단한 문답 형식의 서비스에서는 LLM을 사용하는 것이 되려 올바르지 않은 답변을 내놓을 수 있다는 점에 대해서 명심해야 될 것으로 보인다.

사내에서도 올바른 LLM 사용을 위해서 이를 위한 교육이 필요하며, LLM을 사용할 시에 적합한 데이터 셋을 마련해 서비스에 모델을 적용시켜야 할 것으로 이해된다.

3. 참고 기사: https://www.aitimes.com/news/articleView.html?idxno=162438

오늘은 8월의 AI 관련 주요 이슈들을 정리해봤는데요!

AI가 과학 연구까지 직접 실행한다니, 정말 놀랍죠?

AI 기술이 정말 빠르게 발전하고 있다는 걸 체감할 수 있는 소식이었습니다.

그럼 여기서 마무리하고, 다음달에도 더 유용한 AI 정보들로 찾아오겠습니다!

저작자표시 비영리 변경금지