2020년 12월 16일

소셜 리스닝 툴에 최첨단 AI 언어모델 'BERT'가 도입된다면?

안녕하세요, 신디지오 입니다 : )

오늘은 신디지오(Synthesio)에 관한 새로운 소식을 알려드리기 위해 찾아왔습니다.

바로 신디지오가 Google BERT를 도입했다는 소식인데요❗❗

BERT 도입으로 보다 심층적인 분석이 가능해졌다고 하는데 신디지오가 과연 얼마나 똑똑해졌을까요?지금부터 함께 보시죠!

신디지오가 도입한 "Google Bert"

먼저, Google BERT가 정확히 무엇인지 알아야겠죠?

구글의 인공지능(AI) 언어모델인 ‘버트(BERT)’는 음성을 통한 언어 인식 성능에서 인간보다 더 높은 정확도를 보이는 최첨단 머신러닝 모델입니다.

버트는 광범위한 자연어 처리(NLP) 작업에서 단어의 뉘앙스와 문맥을 보다 잘 이해함으로써 사용자에게 정확한 검색결과를 제공합니다. 이 외에도 특정 직업 표현에 숨겨진 물리적 의미, 컴퓨터가 잘 이해하지 못하는 인간의 미묘한 언어 차이 등을 문맥에서 정확하게 파악할 수 있습니다. 버트를 검색엔진에 도입함으로써 구글 검색 정확도가 크게 올라갔다고 하는데요. 실제로 어떤 변화가 일어났는지 한번 볼까요?

BERT는 "for", "to"와 같은 전치사가 의미에 큰 영향을 미치는 길고 복잡한 쿼리 검색에 특히 효과적입니다.

예를 들어 "2019 brazil traveler to usa need a visa"라는 검색어에서 전치사 “to(~에)”는 전체 의미를 이해하는데 매우 중요하지만, 이전까지의 알고리즘은 이 중요성을 이해하지 못해 '브라질로 여행하는 미국인'에 관한 엉뚱한 검색결과를 내놨습니다. 반면 BERT 알고리즘은 "to"의 의미와 질문의 뉘앙스를 이해하고 '미국을 여행하는 여행자'라는 정확한 검색결과를 제공했습니다. 정확히 미국을 여행하는 여행자(traveler to usa)에 관한 결과가 나타났습니다.

BERT 모델은 특정 직업에 숨겨진 물리적 의미를 정확하게 파악할 수 있습니다. "do estheticians stand a lot at work"의 검색결과는 다음과 같았는데요. 이전에는 'stand'와 'stand-alone(독립형)' 두 단어를 동일한 의미로 해석해 실제 의미와 관련 없는 검색 결과를 제공했습니다. 반면, BERT 모델은 'stand'가 'esthetician'라는 직업의 육체적 요구 개념과 관련이 있음을 파악하여 의미에 맞는 검색결과를 나타냈습니다.

BERT는 컴퓨터가 잘 이해하지 못하는 언어의 미묘한 뉘앙스 차이를 잘 파악할 수 있습니다. "math practice books for adults"를 검색해 본 결과, 이전의 결과 페이지에는 'Young Adult (청소년)' 책도 포함되어 있었으나 BERT는 'Adult (성인)' 관련 결과만 나타나고 있는데요. 단순히 adult가 포함된 결과를 제공하는 것이 아닌, for adult의 의미를 정확히 파악하고 결과를 도출한다는 것을 알 수 있습니다.

BERT는 기존 AI 학습 방법을 혁신적으로 바꿔놨다는 평가를 받고 있습니다. 기존 존재했던 어떤 기술보다 뛰어난 성능을 보여주어 최근 2년 동안 BERT를 필두로 AI 모델은 급격히 대형화되는 추세입니다. Google BERT는 항공사, 금융권 등 여러 분야에서 도입되고 있는데요. 신디지오(Synthesio) 또한 BERT를 도입하여 감정분석, 비관련 데이터 분류 등 여러 기능에서 활용하고 있습니다.

신디지오 X 버트(BERT)

Semantic AI - 텍스트 분석

신디지오는 Google BERT를 기반으로 신경망을 구축하고 Semantic AI라는 텍스트 분석 기능을 개발했습니다. Semantic AI는 신디지오의 고급 텍스트 분석 기능인데요. 대화 주제와 표현, 설명 및 동작을 분류하여 소비자에 대한 더 명확한 이해를 제공합니다.

기본적으로 BERT는 Wikipedia 같은 전문적, 중립적, 정형화된 언어로 train되었습니다. 하지만 위 예시에서 볼 수 있듯이 Wikipedia 텍스트와 소셜미디어 멘션은 구문과 대화 스타일이 크게 다르죠. 그래서 신디지오는 BERT를 토대로 다차원적인 소셜 멘션을 Train하여 신경망을 구축했고, 이렇게 만들어진 모델은 소셜 미디어 멘션의 품사와 엔터티를 정확히 분류한다고 합니다.

Semantic AI의 기능은 엔터티 분류와 텍스트 분석으로 구성되어 있는데요. 지금부터 자세히 살펴보겠습니다.

1. NER을 통한 엔터티 분류

BERT 도입으로 신디지오에서는 개체명 인식(NER : Named Entity Recognition)이 가능해졌죠. 엔터티(Entity)는 사람, 장소, 제품과 같은 개체를 일컫는 용어로, 말 그대로 이름을 가진 개체(named entity)를 인식하겠다는 것을 의미합니다. 좀 더 쉽게 설명하면, 어떤 이름을 의미하는 단어를 보고 그 단어가 어떤 유형인지를 인식하는 것을 말합니다. 신디지오는 NER을 통해 텍스트에서 엔터티를 추출하고 People, Products, Organizations 등 총 8개의 카테고리로 분류 및 정의합니다.

실제 소셜 멘션을 통해 신디지오가 엔터티를 어떻게 인식하는지 살펴봤습니다. 위 텍스트에서 'Hulu'와 'HBO Max'는 넷플릭스 같은 OTT 서비스를 제공하는 기업이고, 'AMC'는 미국의 대형 체인 영화관입니다. 신디지오가 이 3가지 키워드만 정확히 Organisation으로 분류한 것이 보이시나요? 신디지오의 엔티티 분류 기능을 바탕으로 Organisation 카테고리를 필터링하면 경쟁사 파악 및 분석에도 활용할 수 있습니다.

2. 품사 분류 및 텍스트 분석

신디지오에서는 Semantic AI를 통해 품사 분류가 가능한데요. 명사, 동사, 형용사, 부사를 비롯해 명사구, 명사+형용사, 부사+동사 등 총 10개 카테고리로 품사를 분류합니다. 카테고리 필터를 활용하면 원하는 품사만 정확히 볼 수 있습니다.

실제 멘션을 통해 신디지오가 품사를 어떻게 분류하는지 살펴봤습니다. 동사, 형용사는 물론 very excited, re tiny를 부사+형용사로, re back을 형용사+동사로 정확히 분류하는 것이 놀랍지 않나요? Nothing against Animaniacs, Tiny Toons 긴 키워드도 명사구로 자동 분류해주니 좀 더 정확하고 자세한 분석이 가능해지겠네요!

신디지오에서는 품사 분류한 텍스트를 시각화 할 수 있습니다. 위 사진은 별 1개짜리 리뷰 데이터의 다양한 표현을 시각화한 것으로 부사+명사, 동사+명사 등 다양한 품사로 정확히 구분되어 있는데요. 텍스트를 시각화하면 어떤 키워드가 주로 언급됐는지 한 눈에 볼 수 있어 인사이트 도출에 용이합니다.

Sentiment Analysis

신디지오는 BERT를 활용해 ASA (Automated Sentiment Analysis)라는 신디지오만의 감정 분석 모델을 만들었습니다. ASA 모델은 기존 모델과 어떤 차이를 보이고 있는지 예시를 통해 살펴보겠습니다.

예를 든 텍스트는 디즈니 월드에 관한 긍정적인 내용입니다. Old Model은 이 문장을 'Negavite'로, New Model은 'Positive'로 분류했는데요. 왜 이런 차이가 발생했을까요?

바로 분석 방법의 차이 때문입니다. 기존 모델은 단어를 하나하나 개별적으로 분석했는데요. 문장에 언급된 'never', 'leave', 'wait'를 부정 단어로 인식한 후 이를 종합하여 텍스트를 'Negative'로 분류했습니다.

반면, 새로운 모델은 단어의 앞뒤를 함께 분석해 단어들 사이의 의미적, 문법적 관계를 함께 파악함으로써, 글의 전체적인 감정을 긍정으로 인식하고 'Positive'로 분류했습니다.

이처럼 ASA 모델은 단어 앞뒤에 나오는 또다른 단어들을 통해 멘션의 전체 맥락을 파악하기 때문에 기존 모델에 비해 정확도가 높다고 하는데요. 실제로 신디지오에서 F1-score로 정확도를 측정한 결과, BERT 도입 이후 감정분석의 정확도가 평균 18%p 향상되었다고 합니다.

Noise Reducer

정확한 분석 결과를 위해서는 고품질의 데이터를 활용하는 것이 필수적입니다. IBM은 저품질 데이터가 미국 경제에 무려 3.1조 달러의 손실을 입힐 것으로 추정했습니다. 하지만 페이스북 이용자가 16억 6천만 명을 기록하는 등 소셜 미디어 사용이 계속 증가하는 상황에서 데이터 품질 관리는 점점 어려워지고 있는데요. 신디지오의 Noise Reducer 기능을 활용하면 최소한의 시간과 비용으로 필요한 데이터만 추출할 수 있습니다.

신디지오의 Noise Reducer는 BERT를 활용한 대표적인 기능인데요. 기존의 자연어 처리 기법과는 달리 BERT는 글의 전체 맥락을 파악함으로써 멘션을 정확하게 분류합니다. 일반적인 스팸 외에도 채용 공고, 온라인 게임, 광고, 혐오글 등 멘션을 다양한 카테고리로 분류해준다고 하니, 분석 목적에 맞지 않는 데이터를 효과적으로 제거할 수 있겠죠?

지금까지 Google BERT를 도입한 신디지오(Synthesio)를 살펴봤는데요. BERT를 비롯하여 신디지오의 신경망 모델들을 계속해서 train되고 있다고 하니 앞으로 신디지오가 얼마나 더 똑똑해질지 지켜봐주세요🤗

oogle BERT를 도입한 신디지오 (Synthesio)에 대해 더 알아보고 싶다면?

소개서 다운로드 ▼

https://drive.google.com/file/d/1tp_kbmSKJ42Z6bQatBLLAsyDpF542QgB/view

https://blog.naver.com/PostView.nhn?blogId=synthesio&logNo=222169169077&redirect=Dlog&widgetTypeCall=true&directAccess=false

소셜 리스닝 툴에 최첨단 AI 언어모델 'BERT'가 도입된다면?

최근 게시물

Comments