Researcher/Computer (AI, NLP, LLM, ...)

AI 트렌드 및 NLP 학습 관련 컬럼 정리하기

마크 주쿼버그 2023. 6. 11. 20:46

 

[pixabay] Language 이미지 검색 결과

 

오늘 읽을 주제들은 AI 분야, 특히 자연어 분야의 트렌드를 좀 쫓아보고자 몇 개 글을 읽고 가져와보았다.

어떤 한 분야의 구체적인 내용 보다는 전반적인 트렌드를 이해하고자 노력하였고, 그 중 필요한 개념이 있다면 별도 포스팅으로 남겨보고자 한다.

 

그럼 진짜로 시작!

 

Today's Column

오늘은 다양한 매체에서 글을 가지고 와 보았다. 각각 LG AI연구원 Research BLOG, Google Research BLOG, 레터 웍스에서 작성된 글이다.

1. [NeurIPS 2022] 학회 참석 후기 및 최신 연구 트렌드 (LG AI연구원 김근형님, 최성익님, 황다솔님/ 2023.02.07.)

2. Unlocking Zero-Resource Machine Translation to Support New Languages in Google Translate (Google Research/ 2022.05.11.)

3. 한국어 언어모델 (Korean Pre-trained Language Models) 톺아보기 (2) (레터 웍스, 2022.11.28.)

 

 


1. [NeurIPS 2022] 학회 참석 후기 및 최신 연구 트렌드

- 작성자: LG AI연구원 김근형님, 최성익님, 황다솔님

- 작성일: 2023년 02월 07일

- URL: https://www.lgresearch.ai/blog/view?seq=300&page=1&pageSize=12

 

(1) 컬럼 요약

1. 최성익님: Generative model에서 주목받고 있는 모델, SGM (Score-based Generative Model)

SGM과 관련하여 NeurIPS에 제안된 최근 연구 방향은 아래와 같다.

  • SGM이 갖고 있던 한계점 개선(생성 속도 향상)하기
  • SGM을 Image domain에서 벗어나 다양한 Space에서 정의하기
  • 이미지 도메인에서 다양한 Downstream task에 SGM을 적용하기

2. 황다솔님: 초거대모델(LLM) 연구 중 크게 주목받은 두가지 모델(연구), Chinchilla와 Flamingo.

  • 적은 자원을 이용하여 좋은 성능을 내는 Chinchilla 모델 (모델 크기를 낮추고 학습 토큰 수를 늘리자!)
  • 멀티모달 분야에서 모델의 미세조정 없이 새로운 태스크를 수행하는 Fliamingo 모델 (Unimodel을 고정하고 두 모달리티를 연결하는 레이어만 학습하자!)

3. 김건형님: 강화학습 중에서도 모방학습 분야에서 Transformer를 활용한 연구, Behavior Transformer(BeT)

  • Tranformer 구조를 활용하여 Multi-modal 데이터를 다루는 BeT 알고리즘

 

 

(2) 나의 생각

이 컬럼을 포함하여 AI 관련된 트렌드를 살펴보면 가장 많이 나오는 키워드는 역시 아래와 같이 5개 항목이다. (숫자는 순위를 부여한 것이 아니며, 생각나는 순서대로 임의로 작성하였다.)

 

1. Diffusion model

2. LLM(Large Language Model)

3. Generative Model

4. Reinforce Model

5. Multi modal

 

본 컬럼에서도 이 다섯가지 주제에 대해서 언급하고 있으며, 특히 Multi modal의 경우 분야의 국한되지 않고 전반적으로 적용되고 있는 것을 살펴볼 수 있다. 이번 글에서 눈에 띄었던 부분은 Multi modal 학습 방법이었다. 나는 unimodal이 여러 개 연결된 구조 전체를 학습하는 것이 복잡하고 많은 자원이 필요로 할 것이라고 생각했었는데, Unimodal을 그대로 고정하고 연결 레이어만 업데이트 하거나 Transformer 구조를 개선하는 등, 자원을 적게 들이면서 효율적으로 학습되는 방법이 많이 등장하고 있는 것으로 보인다.

 

또한 Downstream task에 대하여 학습 할 때에도 기존에 fine-tuning 방법을 많이 채택했던 방면에 최근에는 prompt-tuning이나 in-context learning (예: zero-shot learning) 방식이 많이 적용되고 있는 것으로 보인다.

 

 


2. Unlocking Zero-Resource Machine Translation to Support New Languages in Google Translate

- 작성자: Google Translate팀의 Research Scientists인 Isaac Caswell, Ankur Bapna

- 작성일: 2022년 05월 11일

- URL: https://ai.googleblog.com/2022/05/24-new-languages-google-translate.html

 

 

(1) 컬럼 요약

  • 문제 상황: 상대적으로 데이터가 적은 소수 언어의 경우, LangID(언어 식별)가 잘 식별되지 않음.
  • 기존 방법: CLD3(Compact Language Detector v3) LangID 모델 사용
  • 한계점: 데이터셋에 노이즈가 많아 자원이 부족한 언어에 대해 식별이 어려움
  • 개선 방법: Transformer 기반의 Semi-supervised LangID 모델인 MASS(MAsked-Sequence-to-Seqeunce)를 수행하여 노이즈가 많아도 일반화를 잘 수행할 수 있도록 지원

 

(2) 나의 생각

나의 최근 관심사 중 하나가 자연어 처리 분야에서 Downstream task를 위한 학습을 할 때 데이터 수가 적어도 효과적으로 학습하는 방법이다. 그런데 구글 I/O 2022에서 데이터가 적은 소수 언어를 지원한다고 밝혔고, 여기서 사용한 학습 방법이 도움이 되지 않을까 하여 가지고 왔다.

구글에서 수행한 이 연구는 데이터가 충분치 않은 상황에서 이전에 번역해보지 않은 새로운 언어도 번역할 수 있다고 한다. 아직 가볍게 훑어본 정도로만 읽었는데 이해하기 어려운 부분도 있고 더 자세히 공부해보고픈 마음도 있어서 별도의 포스팅으로 작성해보고자 한다.

 

 


3. 한국어 언어모델 (Korean Pre-trained Language Models) 톺아보기 (2)

- 작성자: 레터 웍스 (작성자 이름 별도 기재하지 않음)

- 작성일: 2022.11.28.

- URL: https://www.letr.ai/blog/tech-20221124

 

 

(1) 컬럼 요약

시간의 흐름별로 등장한 한국어 언어 모델을 나열하고 있으며, Encoder 중심 모델(BERT 계열)/ Decoder 중심 모델(GPT 계열)/ Encoder-Decoder 모델(Seq2Seq 계열)로 분류하여 정리되어 있다. 어디서 개발했는지, 학습 데이터는 무엇이며, 어떤 Tokenizer를 썼는지까지 자세하게 기재되어 있다.

 

(2) 나의 생각

한국어 데이터를 이용하여 Downstream task를 수행하고자 했을 때, 대규모 영어 데이터로 학습된 Pretrained model을 대규모 한국어 데이터로 학습한 후, 그 모델을 가지고 Downstream task에 대한 학습이 일어나는 게 조금 번거롭게 느껴졌다. 그러나 다국어 지원 모델들은 아직 단일 언어 지원 모델들보다 성능이 떨어진다는 평가가 많아서, 번거롭더라도 한국어로 학습된 모델을 사용하는 것이 현재까지는 최선이라는 생각이 든다.