위클리 NLP

2020-23년에 진행했던 뉴스레터 Archive

Week 23 - NLP의 궁예 등장? 관심법으로 번역을 잘해보자

위클리 NLP

Week 23 - NLP의 궁예 등장? 관심법으로 번역을 잘해보자

2020년 봉준호 감독의 기생충이 아카데미를 수상하면서 함께 주목을 받았던 사람이 바로 그의 동시 통역가 샤론 최 씨인데요. 기계번역이 아무리 좋아도 당장은 이런 고퀄리티의 통역가는 대체될 수 없겠구나라고 할 정도로 훌륭한 실력을 선보였습니다. 저는 세 가지 부분에서 그녀의 통역이 굉장했다고 느꼈는데요: (1) 영화 업계 (충무로/할리우드)에서 쓰이는 전문 용어 (jargon)

By Park Ji Ho
Week 22 - 딥러닝 기계번역 모델 seq2seq 깊게 파보기

위클리 NLP

Week 22 - 딥러닝 기계번역 모델 seq2seq 깊게 파보기

지난주에는 최근 몇년 간 기계번역 분야의 비약적인 성장에는 딥러닝 기반의 neural machine translation (NMT)의 seq2seq 모델이 있다는 것을 소개하며 간단히 모델의 구조에 대하여 공부해보았습니다. 그렇다면 seq2seq 모델은 어떤 방법으로 학습이 되는 걸까요? 어떻게 번역된 문장을 생성할까요? 그리고 번역의 퀄리티는 어떻게 평가가 되는 걸까요? 공부하면 할수록 궁금한게 많아집니다. 이 질문들을

By Park Ji Ho
Week 21 - 기계 번역의 패러다임을 바꾼 seq2seq 모델

위클리 NLP

Week 21 - 기계 번역의 패러다임을 바꾼 seq2seq 모델

저는 세기의 대결 2016년 <알파고 vs. 이세돌>을 인공지능 연구 석사를 시작하던 첫 학기 때 보았습니다. 저에게는 이제 이 새로운 길로 들어가려고 막 시작했던 때라 정말 가슴을  뛰게 하는 뉴스들이었습니다. 바둑 전문가들은 이 대결의 지켜보면서, "알파고는 인간이라면 하지 않을 수를 둔다. 여태까지  정석이라고 알고 있었던 우리의 이론과

By Park Ji Ho
Week 20 - 구글 번역기는 처음에 어떻게 만들어진걸까?

위클리 NLP

Week 20 - 구글 번역기는 처음에 어떻게 만들어진걸까?

영어 공부를 열심히 하면서 살던 중 어느 순간 컴퓨터가 번역을 자동으로 해줄 수 있다는 소식을 들었었습니다. 검색 시장으로 세계를 장악하던 G사가 만든 translate라는 제품. 간단한 거부터 해보았습니다. 오, 좀 하네? 그럼 지금 읽고 있었던 영어 지문도 넣어보았습니다. 흠 이건 무슨 소리지. 뭔가 단어 하나하나는 말이 되는 거 같으면서도 전체적으로 뭔

By Park Ji Ho
Week 19 - 언어 모델을 가지고 트럼프 봇 만들기?!

위클리 NLP

Week 19 - 언어 모델을 가지고 트럼프 봇 만들기?!

최근 윤종신 아티스트님이 구글 코리아에서 강연을 했던 것을 들었는데, 그 중 아주 인상 깊은 부분이 있었습니다. 청중 한 분이 “AI가 너무 발전해서 윤종신의 음악의 패턴을 분석해서 ‘윤종신스러운’ 새로운 곡을 쓸 수 있다면 어떠실 것 같아요? 그런 세상이 올까요?” 그러자 윤종신 님은 너무 태연하게, “제가 과거에 했던 행태를 (비슷한 음악 기법)

By Park Ji Ho
Week 18 - 기억력이 훨 좋은 딥러닝 언어 모델 등장! RNN LM

위클리 NLP

Week 18 - 기억력이 훨 좋은 딥러닝 언어 모델 등장! RNN LM

"시장에 가면~ 바나나도 있고, 닭다리도 있고, 수박도 있고, 아이스크림도 있고~" 이 게임 기억나시는 분 있나요? 정말 옛날에 술자리에서 랜덤 게임을 하면 정말 드문 확률로 이 고전 게임이 시작되기도 했는데... (제가 너무 아재인가요;;) 어쨌든 이 게임의 가장 중요한 포인트는 내 앞사람들이 고른 시장 아이템들을 순서대로 기억해야 한다는 점입니다. 운이

By Park Ji Ho
Week 17 - 딥러닝이 언어 모델에 필요한 이유

위클리 NLP

Week 17 - 딥러닝이 언어 모델에 필요한 이유

지난 2주 간 인공지능이 우리의 말귀를 알아들으려면 발음 모델 그리고 언어 모델을 학습해야 한다고 공부했습니다. 생각해보면 우리는 정말 많은 단어를 머리 속에 담고 무수히 많은 조합으로 문장을 쓰거나 대화를 합니다. 난생 처음 보는 글을 읽을 때도 (제대로 쓰인 글이라면) 자연스럽게 작가가 하려는 말을 이해할 수 있습니다. 새로운 조합의 단어도, 심지어

By Park Ji Ho
Week 16 - AI은 어떻게 영어 발음을 나보다 잘 인식할 수 있을까

위클리 NLP

Week 16 - AI은 어떻게 영어 발음을 나보다 잘 인식할 수 있을까

제 글이 값어치[가버치]를 하고 있나요? 글이 쌓고 [싸코] 쌓여 [싸여] 더 많은 지식이 여러분께 전달되었으면 좋겠네요. 이렇게 우리가 언어를 쓰는 방식은 실제로 발음하는 방식과 다를 때가 많습니다. 모국어의 경우 자연스럽게 위 예시 같은 묵음을 생각하지 않고 발음하게 습관이 되어있지만, 새로 배우는 언어의 경우 쓰여있는 그대로 읽다가 지적을 받을

By Park Ji Ho
Week 15 - 인공지능은 말을 어떻게 알아 먹는걸까, ASR #1

위클리 NLP

Week 15 - 인공지능은 말을 어떻게 알아 먹는걸까, ASR #1

사람이 많은 카페에서 친구와 같이 얘기를 하다가 잠깐 멈추면 주변이 얼마나 시끄러운지 그제야 깨닫게 되는 때가 종종 있습니다. 천장에서 나오는 음악, 양 옆에서 각자의 대화를 큰소리로 즐겁게 나누는 다른 사람들, 바리스타가 커피를 내리면서 나는 소음 등 정말 내가 어떻게 친구 말을 알아듣고 있었나 싶을 때도 있습니다. 이렇게 우리는 웬만한 소음

By Park Ji Ho
Week 14 - 숫자만 잘 세도 NLP 모델이 된다?  N-gram language model

위클리 NLP

Week 14 - 숫자만 잘 세도 NLP 모델이 된다? N-gram language model

지난 주 글에서 Language Model (LM)이 무엇인지에 대해서 배웠습니다. 어떠한 문장이 주어졌을 때 얼마나 그럴 듯 하냐를 확률(probability)로 나타내는 것이 LM의 핵심 개념입니다. 그렇다면 생각만 해도 복잡한 확률을 어떻게 계산할까요? 그건 바로 여태까지 읽은 문장, 즉 데이터에 있는 단어들을 하나하나 다 세보는 것입니다! 간단하게 생각해봅시다. 우리의 데이터를

By Park Ji Ho
Week 13 - 언어를 모델링한다? Language Model Basics

위클리 NLP

Week 13 - 언어를 모델링한다? Language Model Basics

친구와 말을 하다 보면 특정한 단어가 생각나지 않을 때가 있지요. "내가 주말에 카페에서 공부를 하고 있는데... 그 누구지.. 커피....." "바리스타?" "아 응, 바리스타가 말이야~" 이렇게 친구가 내가 생각하는 단어를 잡아줄 때 민망하기도 하면서 한편으로는 내 말을 잘 듣고 있구나 하는 느낌이 듭니다. 새로운 언어로

By Park Ji Ho
Week 12 - AI 모델에게도 예비 고사와 수능이 있다고요?

위클리 NLP

Week 12 - AI 모델에게도 예비 고사와 수능이 있다고요?

족보와 기출문제. 이 두 단어는 시험과는 떼려도 뗄 수 없는 단어들입니다. 학생들의 시험 기간 동안의 대화를 분석하면 이 단어들의 빈도 수가 높지 않을까요? 저 역시 고등학교 때 선배들한테 받은 기출문제들을 보면서 공부했던 기억이 나네요. 어떤 과목은 거의 과거 문제에서 숫자만 바뀐 정도로 시험이 나와 그 기출문제를 입수한 학생들이 웃기도 했지만,

By Park Ji Ho