[외부 콘텐츠 소개] AI가 유튜브를 본다면?

우리는 텍스트 문장 또는 단락을 읽으면 많은 것들을 떠올립니다. 아마도 자신의 경험과 관련된 것들이겠죠. 이렇게 서로 다른 객체를 서로 연관지어 기억하고 불러내는 것을 심리학에서는 Associative Memory라고 부릅니다.

그렇다면 텍스트를 입력받으면 이미지를 떠올리게 하거나, 이미지를 입력받으면 텍스트를 출력하게 하는 기능을 인공지능에게도 부여할 수 있을까요?

최근에 소개되고 있는 멀티모달(Multi-modal) 모델들이 이러한 시도를 하고 있습니다. 다양한 embedding 기법의 발전에 힘입은 바가 크지요. 텍스트를 텍스트끼리 관련지어 처리하거나 이미지를 이미지끼리 관련지어 처리하는 방식이 아니라, 텍스트와 이미지를 관련지어 처리하는 것이 이러한 모델들의 기본 개념이라고 볼 수 있습니다.

아래 링크의 글은 이러한 개념에 대해 간결하게 소개하고, 이러한 모델을 학습하는데 필요한 데이터에 대해서 설명하고 있습니다.

AI가 유튜브를 본다면?

  • “이번 글에서는 텍스트-비주얼 이해(text-visual understanding)이라는 개념을 소개합니다. 텍스트와 비주얼 이미지를 함께 이해한다는 것이 무슨 뜻이고, 이를 위해 어떤 데이터를 어떻게 쌓고 있는지 다루어보겠습니다.”

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다