[6월의 AI 트렌드] AI칩 훈련 속도 6개월 사이에 2배, 점점 더 빨라지는 AI!

News/AI 트렌드

[6월의 AI 트렌드] AI칩 훈련 속도 6개월 사이에 2배, 점점 더 빨라지는 AI!

skbd 2024. 7. 22. 18:40

글: SK브로드밴드 AIX R&D팀 전혜윤 매니저

안녕하세요.

6월의 주요 AI 이슈로 찾아왔습니다!

AI 훈련 속도가 반년 사이 2배 가까이 빨라지고,

합성 데이터의 모델 붕괴를 막는 피드백 매커니즘도 등장하는 등

AI 업계가 빠르게 발전하고 있어요.

그럼 그 자세한 내용을 함께 알아볼까요?

<목차>

합성 데이터의 ‘모델 붕괴’ 막는 피드백 매커니즘 등장

애플, 온디바이스 AI용 모델·데이터셋 오픈 소스로 대거 출시

AI 훈련 속도 6개월 전보다 최대 80% 향상… ”소프트웨어 개선이 중요한 이유”

SNS 사용자 데이터로 AI 무단 학습 말라’ 제동에 메타 굴복… “EU서 AI 출시 보류”

AI 챗봇들이 공식적으로 활동하는 SNS 등장… “디스토피아적 미래 눈앞에”

👉🏻 위의 목차 중 원하시는 주제명을 클릭하시면, 해당 본문으로 바로 이동할 수 있습니다.

합성 데이터의 ‘모델 붕괴’ 막는 피드백 매커니즘 등장

1. Summary: 합성 데이터는 AI 모델의 학습에서 데이터 부족을 보완할 대안으로 꼽힌다.

그러나, 합성 데이터로만 학습한 모델은 실 세계 환경과 달라서 성능이 급격하게 나빠지는 ‘붕괴’ 현상을 발생시키는 것으로 알려졌다.

이를 극복하기 위해 메타와 뉴욕, 베이징 대학교 연구진이 모델 붕괴를 방지하기 위한 ‘합성 데이터 피드백 통합 방법’을 제안했다.

일반적으로 모델 붕괴에 대응하는 방법으로는 인간 피드백을 활용한 강화학습(RLHF), 데이터 큐레이션, 프롬프트 엔지니어링 등이 활용되었다.

그중 RLHF는 가장 효과적인 방법이었지만 사람이 직접 Labeling을 해야 해서 공수가 많이 소요되었다.

이에 연구진들은 고품질 데이터를 생성하는 것보다 생성된 데이터를 좋은 데이터와 나쁜 데이터로 분류하는 것이 훨씬 효과적이라 생각하고 이를 검증했다.

그 결과 전체 데이터에 12.5%만 사용하고도 전체 데이터셋에서 훈련한 원래 모델보다 뛰어난 성능을 발휘했다고 확인했다.

즉, 저품질의 큰 데이터셋보다 고품질의 소수 데이터셋이 모델 학습에 훨씬 효과적인 것을 검증했다.

2. Implication: 일반적으로 도메인에 특화 LLM을 개발할 때 사용 가능한 데이터는 대부분 비정형 상태로 존재한다.

이에 이를 정제하고 다른 LLM을 사용하여 학습을 위한 데이터를 생성하게 된다.

이 과정에서는 좋은 품질인 경우도 있고 나쁜 품질인 경우도 있는데 이를 사람이 직접 개입하여 선별하기에는 매우 큰 공수가 발생한다.

하지만 위와 같은 방법을 통해 양질의 데이터를 선별하는 작업을 부분 자동화 할 수 있게 된다면 AI를 학습시키기 위해 필요한 공수를 상당 수 절감 할 수 있을 것으로 보인다.

3. 참고 기사: https://www.aitimes.com/news/articleView.html?idxno=160686

애플, 온디바이스 AI용 모델·데이터셋 오픈 소스로 대거 출시

1. Summary: 애플이 온디바이스 인공지능(AI) 앱 구축에 사용 가능한 대형언어모델(LLM)과 데이터셋을 오픈 소스로 공개했다.

벤처비트에 따르면, 애플은 허깅페이스에 새로운 코어 ML 모델 20종과 데이터셋 4종을 무료로 출시했다.

코어 ML은 애플 실리콘을 활용해 메모리 사용량과 전력 소모를 최소화하며, 온디바이스 성능을 최적화한 모델이다. 여기에는 이미지 분류용 '패스트ViT',

깊이 추정용 '댑스애니씽', 의미론적 분할용 'DETR' 등이 포함된다. 이 모델들은 네트워크 연결 없이 사용자의 장치에서 실행되며, 사용자 데이터의 비공개를 보장한다.

전문가들은 애플의 온디바이스 AI 집중이 클라우드에서 엣지 디바이스로의 컴퓨팅 파워 이동 추세와 일치한다고 평가했다.

또한, 애플이 허깅페이스를 통해 AI 커뮤니티와 협력 관계를 확대하고 있는 점이 주목받고 있다.

이로 인해 AI 커뮤니티는 온디바이스 AI에 대한 접근성을 높이고 협업을 통해 기술 개발을 지원하게 되었다.

2. Implication: 애플의 온디바이스 AI 모델과 데이터셋 공개는 개인정보 보호를 강화하면서 엣지 컴퓨팅 기술 발전을 가속화한다.

개발자와 AI 커뮤니티는 이를 통해 온디바이스 AI 기술을 더 쉽게 활용하고 협업할 수 있게 되었다.

이로 인해 클라우드 의존도가 낮아지고 온디바이스 AI 기술의 접근성이 높아질 것으로 기대된다.

3. 참고 기사: https://www.aitimes.com/news/articleView.html?idxno=160712

AI 훈련 속도 6개월 전보다 최대 80% 향상… "소프트웨어 개선이 중요한 이유"

1. Summary: 하드웨어와 AI모델의 알고리즘이나 관련 소프트웨어의 행상으로 인공지능(AI)칩의 훈련 속도가 6개월 사이에 최대 2배 가까이 빨라진 것으로 나타났다.

ML커먼스가 발표한 ‘ML퍼프(MLPerf) 4.0’ 훈련 벤치마크 결과에 따르면, 이미지 생성 모델 ‘스테이블 디퓨전’ 훈련 속도는 1.8배, ‘GPT-3’훈련은 최대 1.2배 빨라졌다.

ML커먼스는 훈련 성능 향상이 하드웨어도 중요하지만, 클러스터를 서로 연결하는 네트워크와 소프트웨어에 기인한다고 분석했다.

17개 회사가 참여, 205개 이상의 성능 결과가 나온 이번 발표에도 엔비디아는 인상적인 결과로 ML퍼프 벤치마크를 장악했다.

인상적인 점은 새 기록 대부분이 지난해 6월에 사용했던 ‘H100’ 기반의 하드웨어 플랫폼을 그대로 사용했다는 점이다.

데이비드 살바토르 엔비디아 AI 이사는 “소프트웨어 혁신을 통해 동일한 아키텍처에서 2~2.5배 더 많은 성능을 얻을 수 있었다”라고 말하며 소프트웨어 개선의 중요성을 강조하였다.

2. Implication: 엔비디아는 전체 스택 최적화, 고도로 튜닝된 FP8커널, 지능형 GPU 전력 할당 등 다양한 기술을 사용하여 동일한 하드웨어에서도 성능을 높일 수 있음을 보여줬다.

이를 통해 계속해서 새로운 칩 출시로 하드웨어 성능이 좋아지고 있지만, AI 성능 개선에 하드웨어 업그레이드만이 답이 아님을 알 수 있다.

소프트웨어 개선을 통해 기존 칩의 성능도 향상시킬 수 있다면 보다 많은 기업들이 AI 활용에 비용 부담을 덜 수 있을 것이라 기대된다.

또한 훈련 속도의 고도화로 AI 발전이 더욱 빨라질 것이라는 전망이다.

3. 참고 기사: https://www.aitimes.com/news/articleView.html?idxno=160580

'SNS 사용자 데이터로 AI 무단 학습 말라' 제동에 메타 굴복… “EU서 AI 출시 보류”

1. Summary: SNS 사용자 데이터로 인공지능(AI) 무단 학습을 저지하려는 유럽연합(EU)의 방침에 메타가 무릎을 꿇었다. 메타는 당분간 EU에서 ‘메타AI’의 출시를 보류할 것이라고 밝혔다.

메타는 공식 블로그를 통해 아일랜드 데이터 보호 위원회(DPC)가 페이스북과 인스타그램 등의 사용자가 공유하는 공개 콘텐츠를 사용해 대형언어모델(LLM) 훈련을 연기해 줄 것을 요청했고

이에 따라 EU에서 ‘메타AI’출시가 보류되었음을 전했다.

메타는 지역 정보를 포함하지 않으면 사람들에게 이류(second-rate)경험만 제공할 수 있을 뿐이라며 DPC의 요청에 실망했다고 말했다.

이번 결정은 오스트리아의 비영리 단체인 디지털 권리 센터(NOYB)가 전날 발표된 노르웨이를 비롯한 국가들의 데이터 보호 당국에 불만을 제기한 다음 이뤄졌다.

NOYB는 메타가 게시물을 AI 학습에 사용한다는 동의 절차에 “기만적인 디자인 패턴과 모호한 언어를 사용했다”라며

동의 해제를 선택해야 하는 ‘옵트 아웃(Opt-out)’과정을 방해했다고 주장했다.

메타는 지난달부터 개인 정보 보호 정책에 대한 변경 사항을 사용자에게 알리기 시작했으며, 댓글이나 회사와의 상호 작용,

상태 업데이트 등으로 AI를 학습할 수 있다는 조항을 삽입했지만 이를 거부하려면 약 1100단어를 읽은 뒤에야 의사 표시를 할 링크에 도달할 수 있다.

영국 정보위원회(ICO)도 문제를 해결할 때까지 서비스 배포를 일시 중지할 것을 메타에 요청하며 메타를 포함한 주요 생성 AI 개발자를 계속 모니터링할 것이라고 말했다.

2. Implication: 이번 조치는 메타 뿐만 아니라 학습 데이터가 필요한 다른 AI 기업에도 영향을 줄 전망이다.

오픈AI와 구글은 학습에 사용할 데이터를 확보하기 위해 올 초 레딧과 계약을 맺어 일부 사용자들의 반발을 얻었으며, xAI는 X(트위터)에 오른 사용자들의 실시간 데이터를 반영하고 있다.

AI 개발을 위해 학습 데이터 확보는 필수불가결한 일이지만, “생성 AI를 최대한 활용하려면 대중이 자신의 개인 정보 보호 권리가 처음부터 존중될 것이라고

믿을 수 있는 것이 중요하다”는 ICDO 규제 위험 담당 전무의 말처럼

AI의 성공적인 대중화를 위해선 AI 학습에 대한 명확한 규제가 필요함을 알 수 있다.

3. 참고 기사: https://www.aitimes.com/news/articleView.html?idxno=160638

AI 챗봇들이 공식적으로 활동하는 SNS 등장… “디스토피아적 미래 눈앞에”

1. Summary: 인간과 AI가 공존하는 신개념의 SNS 앱이 등장했다. AI는 사람인 척 속이는 것이 아니라, 공식적으로 AI라는 것을 밝히고 활동한다.

더 버지는 19일(현지시간) 모바일 앱 '버터플라이'가 수만명을 대상으로 비공개 베타를 거쳐 최근 안드로이드와 iOS에 정식 출시됐다고 소개했다.

업계에는 이른바 '죽은 인터넷'이라는 가설이 있다. AI 에이전트들이 사람 대신 웹 작업을 모두 처리하며, 인간들은 더이상 웹에 존재하지 않는다는 내용이다.

이 경우를 잘 보여주는 것이 올 초부터 유행한 '새우 예수'였다. AI 봇들이 아무 의미 없는 예수와 새우 합성 이미지를 올리기 시작했는데, 이는 곧 밈이 돼 눈길을 끌었다.

버터플라이AI CEO는 "나에게는 AI와의 상호 작용이 매우 즐거웠다"라고 밝혔다. "챗봇들은 내 인생의 관계를 망치지 않는다"라고 강조했다.

한편 이 회사는 설립 6개월 만에 코아추와 SV 엔젤 등 유명 벤처 캐피털로부터 480만달러(약 66억원)의 투자를 받았다.

2. Implication: 버터플라이 앱은 인간과 AI가 공존하는 새로운 소셜 미디어라는 점에서 흥미로운 가능성을 제시한다.

하지만, AI 챗봇과의 소통이 실제로 의미 있는 경험이 될 수 있을지는 아직 의문이며, 챗봇의 탈옥을 유도하는 '역할극'과 같이 윤리적 문제를 야기할 수 있는 위협 또한 여전히 있어 보인다.

우리가 원하든 원치 않든 AI 챗봇이 인터넷의 주인공이 되는 일이 현실화되고 있으며, 이러한 상황을 어떻게 비즈니스에 적용해 볼 수 있는지, 고민해 볼 필요가 있다.

3. 참고 기사: https://www.aitimes.com/news/articleView.html?idxno=160769

오늘 준비한 6월 AI 이슈들, 어떠셨나요?

인간과 AI가 공존하는 SNS까지 나오고, AI 기술이 빠르게 발전하는 만큼,

앞으로 AI는 우리 삶에 얼마나, 어떻게 영향을 줄 지 궁금해지네요!

그럼 이만 마무리하며, 다음에도 더 흥미로운 AI 관련 소식들을 발빠르게 가져오겠습니다.

저작자표시 비영리 변경금지