Text classification & Sentence representation

💡

text classification을 하면서 자연스럽게 sentencs representation을 하게 되기 때문에 중요. 이 아티클이 어느 분야인지 자동으로 assign, 스팸메일 분류, 영화리뷰가 positive인지 negative인지 등등.. 할 수 있음

text

input : sentence/paragraph

output : categories A

예시) 감성분석, 카테고리 분류, 의도 분류 등등

가장 중요한 그렇다면 문장을 어떻게 컴퓨터 언어로 표현하나?

문장은 일련의 tokens이다. 텍스트 토큰은 arbitrary 한 성격을 띤다.

토큰을 나누는 기준은 다양하다. 공백(white space), 형태소(morphs), 어절, 비트 숫자 등등.

vocabulary를 만든다. 그리고 그것을 중복되지 않는 index로 바꾼다.

integer sequence로 인코딩

one hot encoding, one of k encoding 등 방법이 있음. integer를 binary vector로 변환. 모든 element는 0. token을 index로 corresponding하는 것만 1로 세팅.

우리가 실제로 원하는 건 token간 관계성. 우리는 비슷한 의미의 단어는 같이 있고, 아니면 멀리 떨어져 있는 관계를 만들고 싶다. 그렇다면 어떻게 관계를 만들어줄까? one hot encoding으로 길이를 표현할 수 있으나, 모든 토큰 간 거리가 같기 때문에 단어 간의 관계를 표현할 수 없음.

Embedding: 토큰을 연속 벡터 공간(continuous vector space)에 투영하면 관계를 표현할 수 있다!

단어는 discrete space다 보니까 matrix를 모르는 것. 이들을 continuous하게 만들 순 없을까?

weigh matrix와 one hot vector를 곱한다. 즉 table lookup 하는 것. 이것도 DAG 안의 node로 구현됨.

즉, 문장이 sequence of continuous, high-dimensional vector 이 되는 것

벡터의 사이즈는 카테고리 개수와 동일. softmax function 적용하면 distribution 계산 가능

토큰에 벡터를 부여하는 게 table lookup이라면, 문장에 벡터를 부여하려면? —CBoW, RN, CNN

continuous bag-of-words (CBoW)
- 아예 가방으로 봐서 단어를 묶어 n-gram으로
- 단어의 순서는 무시
- 생각보다 효과가 좋기 때문에 baseline으로 시도해보자
- facebook에 fasttext가 있다. 참고하자
- 순서
  1. 문장 토큰이 t개 주어져있음
  1. table lookup layer 통해서 vectors로 바뀜 (sequence of token→ sequence of vector)
  1. average node로 averaging (sentence representation)
    - 이때 보편적인 representation이 있다기보다는 내가 풀고자하는 문제에 적합한 representation 이 나오게 된다 (training 한 model에 따라)
  1. 즉 공간상에서 가까우면 비슷한 의미, 아니면 멀리 떨어져 있을 것 . classification하기에 적합해짐
  1. softmax classifier 적용, probability distribution 나옴 → Negative log probability 계산하고 backpropagation 쓰고 Stochastic gradient descent → early stopping → training 끝

Relation Network (Skip-bigram)
- n gram이랑 다른 점 : 토큰 n개를 볼 건데 중간을 띄워서 본다.
- 문장안에 있는 모든 토큰 쌍(pairs)을 보고, 각 쌍에 대해서 신경망을 만들어서 문장표현을 찾는다.
- 모든 다른 토큰의 관계를 봅니다. 모든 단어간의 관계를 봐서 효율적이지 못합니다.
- ht=f(xt,x1)+⋯+f(xt,xt−1)+f(xt,xt+1)+⋯+f(xt,xT)
- 장점: 여러 단어로 된 표현을 탐지
- 단점: 모든 단어간의 관계를 보기 때문에, 전혀 연관이 없는 단어도 보게 됨. (computational efficiency 안좋아짐)

Convolution Neural Network (CNN)
- k-gram을 hierachically하게 보게 됨
- layer의 범주
- 1차원 cnn
- 작은 범위의 토큰의 관계를 봅니다. 따라서 더 먼 거리의 단어간의 관계가 있을 경우 탐지할 수 없거나 더 많은 convolution 층을 쌓아야합니다. ht=f(xt,xt−k)+⋯+f(xt,xt)+⋯+f(xt,xt+k)
- 단점 : 단어 사이 거리가 길 경우 layer를 많이 쌓아야 함.

그러니까, RN은 너무 긴 범위(모든 범위)를 보고 CNN은 너무 작은 범위를 보는 것이다. 이 둘을 잘 절충할 수 없을까? - self attention, Recurrent Neural Network(RNN)

self attention
- t번째 토큰의 representation을 뽑을 때, 또 다른 function A(알파)가 관계성을 파악
- 장점:
  - Long range & short range dependency 극복할 수 있습니다.
  - 관계가 낮은 토큰은 억제하고 관계가 높은 토큰은 강조할 수 있습니다.
- 단점
  - 계산 복잡도가 높고 counting 같은 특정 연산이 쉽지 않습니다.

Recurrent Neural Network(RNN)
- ht(메모리)를 가지고 있어서 읽는 정보 저장 가능
- 문장의 정보를 시간 순어세 따라 압축할 수 있음
- 단점:
  - 문장이 많이 길어질 수록 고정된 메모리에 압축된 정보를 담아야 하기 때문에, 앞에서 학습한 정보를 잊습니다. 이는 곧 정보의 손실을 뜻합니다.
  - 토큰을 순차적으로 하나씩 읽어야 하기 때문에, 훈련 할때 속도가 기타 네트워크 보다 느립니다.
- Long Term Dependency 해결방법:
  - bidirectional network를 쓰게됩니다.
  - LSTM, GRU 등 RNN의 변형을 사용합니다.

이 다섯가지 방법론은 노드로써 함께 쓰일 수 있다. 모두 미분 가능하기 때문이다.

💡

본 페이지는 조경현 교수님 ‘딥러닝을 이용한 자연어처리’ 강의를 정리한 내용입니다.

Uploaded by Notion2Tistory v1.1.0

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

2BArtist

Text classification & Sentence representation

Text classification & Sentence representation

text

가장 중요한 그렇다면 문장을 어떻게 컴퓨터 언어로 표현하나?

Embedding: 토큰을 연속 벡터 공간(continuous vector space)에 투영하면 관계를 표현할 수 있다!

토큰에 벡터를 부여하는 게 table lookup이라면, 문장에 벡터를 부여하려면? —CBoW, RN, CNN

그러니까, RN은 너무 긴 범위(모든 범위)를 보고 CNN은 너무 작은 범위를 보는 것이다. 이 둘을 잘 절충할 수 없을까? - self attention, Recurrent Neural Network(RNN)

'Study > NLP' 카테고리의 다른 글

'Study/NLP'의 다른글

티스토리툴바

Text classification & Sentence representation

Text classification & Sentence representation

text

가장 중요한 그렇다면 문장을 어떻게 컴퓨터 언어로 표현하나?

Embedding: 토큰을 연속 벡터 공간(continuous vector space)에 투영하면 관계를 표현할 수 있다!

토큰에 벡터를 부여하는 게 table lookup이라면, 문장에 벡터를 부여하려면? —CBoW, RN, CNN

그러니까, RN은 너무 긴 범위(모든 범위)를 보고 CNN은 너무 작은 범위를 보는 것이다. 이 둘을 잘 절충할 수 없을까? - self attention, Recurrent Neural Network(RNN)

'Study > NLP' 카테고리의 다른 글

'Study/NLP'의 다른글

관련글

티스토리툴바