[외부 콘텐츠 소개] AI가 유튜브를 본다면?

Inforience 2022년 02월 22일

우리는 텍스트 문장 또는 단락을 읽으면 많은 것들을 떠올립니다. 아마도 자신의 경험과 관련된 것들이겠죠. 이렇게 서로 다른 객체를 서로 연관지어 기억하고 불러내는 것을 심리학에서는 Associative Memory라고 부릅니다.

그렇다면 텍스트를 입력받으면 이미지를 떠올리게 하거나, 이미지를 입력받으면 텍스트를 출력하게 하는 기능을 인공지능에게도 부여할 수 있을까요?

최근에 소개되고 있는 멀티모달(Multi-modal) 모델들이 이러한 시도를 하고 있습니다. 다양한 embedding 기법의 발전에 힘입은 바가 크지요. 텍스트를 텍스트끼리 관련지어 처리하거나 이미지를 이미지끼리 관련지어 처리하는 방식이 아니라, 텍스트와 이미지를 관련지어 처리하는 것이 이러한 모델들의 기본 개념이라고 볼 수 있습니다.

아래 링크의 글은 이러한 개념에 대해 간결하게 소개하고, 이러한 모델을 학습하는데 필요한 데이터에 대해서 설명하고 있습니다.