Text classification & Sentence representation
๐ก
text classification์ ํ๋ฉด์ ์์ฐ์ค๋ฝ๊ฒ sentencs representation์ ํ๊ฒ ๋๊ธฐ ๋๋ฌธ์ ์ค์. ์ด ์ํฐํด์ด ์ด๋ ๋ถ์ผ์ธ์ง ์๋์ผ๋ก assign, ์คํธ๋ฉ์ผ ๋ถ๋ฅ, ์ํ๋ฆฌ๋ทฐ๊ฐ positive์ธ์ง negative์ธ์ง ๋ฑ๋ฑ.. ํ ์ ์์
text
- input : sentence/paragraph
- output : categories A
- ์์) ๊ฐ์ฑ๋ถ์, ์นดํ ๊ณ ๋ฆฌ ๋ถ๋ฅ, ์๋ ๋ถ๋ฅ ๋ฑ๋ฑ
๊ฐ์ฅ ์ค์ํ ๊ทธ๋ ๋ค๋ฉด ๋ฌธ์ฅ์ ์ด๋ป๊ฒ ์ปดํจํฐ ์ธ์ด๋ก ํํํ๋?
- ๋ฌธ์ฅ์ ์ผ๋ จ์ tokens์ด๋ค. ํ ์คํธ ํ ํฐ์ arbitrary ํ ์ฑ๊ฒฉ์ ๋ค๋ค.
- ํ ํฐ์ ๋๋๋ ๊ธฐ์ค์ ๋ค์ํ๋ค. ๊ณต๋ฐฑ(white space), ํํ์(morphs), ์ด์ , ๋นํธ ์ซ์ ๋ฑ๋ฑ.
- vocabulary๋ฅผ ๋ง๋ ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ๊ฒ์ ์ค๋ณต๋์ง ์๋ index๋ก ๋ฐ๊พผ๋ค.
- integer sequence๋ก ์ธ์ฝ๋ฉ
- one hot encoding, one of k encoding ๋ฑ ๋ฐฉ๋ฒ์ด ์์. integer๋ฅผ binary vector๋ก ๋ณํ. ๋ชจ๋ element๋ 0. token์ index๋ก correspondingํ๋ ๊ฒ๋ง 1๋ก ์ธํ .
์ฐ๋ฆฌ๊ฐ ์ค์ ๋ก ์ํ๋ ๊ฑด token๊ฐ ๊ด๊ณ์ฑ. ์ฐ๋ฆฌ๋ ๋น์ทํ ์๋ฏธ์ ๋จ์ด๋ ๊ฐ์ด ์๊ณ , ์๋๋ฉด ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์๋ ๊ด๊ณ๋ฅผ ๋ง๋ค๊ณ ์ถ๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด๋ป๊ฒ ๊ด๊ณ๋ฅผ ๋ง๋ค์ด์ค๊น? one hot encoding์ผ๋ก ๊ธธ์ด๋ฅผ ํํํ ์ ์์ผ๋, ๋ชจ๋ ํ ํฐ ๊ฐ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊ธฐ ๋๋ฌธ์ ๋จ์ด ๊ฐ์ ๊ด๊ณ๋ฅผ ํํํ ์ ์์.
Embedding: ํ ํฐ์ ์ฐ์ ๋ฒกํฐ ๊ณต๊ฐ(continuous vector space)์ ํฌ์ํ๋ฉด ๊ด๊ณ๋ฅผ ํํํ ์ ์๋ค!
- ๋จ์ด๋ discrete space๋ค ๋ณด๋๊น matrix๋ฅผ ๋ชจ๋ฅด๋ ๊ฒ. ์ด๋ค์ continuousํ๊ฒ ๋ง๋ค ์ ์์๊น?
- weigh matrix์ one hot vector๋ฅผ ๊ณฑํ๋ค. ์ฆ table lookup ํ๋ ๊ฒ. ์ด๊ฒ๋ DAG ์์ node๋ก ๊ตฌํ๋จ.
- ์ฆ, ๋ฌธ์ฅ์ด sequence of continuous, high-dimensional vector ์ด ๋๋ ๊ฒ
- ๋ฒกํฐ์ ์ฌ์ด์ฆ๋ ์นดํ ๊ณ ๋ฆฌ ๊ฐ์์ ๋์ผ. softmax function ์ ์ฉํ๋ฉด distribution ๊ณ์ฐ ๊ฐ๋ฅ
ํ ํฐ์ ๋ฒกํฐ๋ฅผ ๋ถ์ฌํ๋ ๊ฒ table lookup์ด๋ผ๋ฉด, ๋ฌธ์ฅ์ ๋ฒกํฐ๋ฅผ ๋ถ์ฌํ๋ ค๋ฉด? —CBoW, RN, CNN
- continuous bag-of-words (CBoW)
- ์์ ๊ฐ๋ฐฉ์ผ๋ก ๋ด์ ๋จ์ด๋ฅผ ๋ฌถ์ด n-gram์ผ๋ก
- ๋จ์ด์ ์์๋ ๋ฌด์
- ์๊ฐ๋ณด๋ค ํจ๊ณผ๊ฐ ์ข๊ธฐ ๋๋ฌธ์ baseline์ผ๋ก ์๋ํด๋ณด์
- facebook์ fasttext๊ฐ ์๋ค. ์ฐธ๊ณ ํ์
- ์์
- ๋ฌธ์ฅ ํ ํฐ์ด t๊ฐ ์ฃผ์ด์ ธ์์
- table lookup layer ํตํด์ vectors๋ก ๋ฐ๋ (sequence of token→ sequence of vector)
- average node๋ก averaging (sentence representation)
- ์ด๋ ๋ณดํธ์ ์ธ representation์ด ์๋ค๊ธฐ๋ณด๋ค๋ ๋ด๊ฐ ํ๊ณ ์ํ๋ ๋ฌธ์ ์ ์ ํฉํ representation ์ด ๋์ค๊ฒ ๋๋ค (training ํ model์ ๋ฐ๋ผ)
- ์ฆ ๊ณต๊ฐ์์์ ๊ฐ๊น์ฐ๋ฉด ๋น์ทํ ์๋ฏธ, ์๋๋ฉด ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์์ ๊ฒ . classificationํ๊ธฐ์ ์ ํฉํด์ง
- softmax classifier ์ ์ฉ, probability distribution ๋์ด → Negative log probability ๊ณ์ฐํ๊ณ backpropagation ์ฐ๊ณ Stochastic gradient descent → early stopping → training ๋
- Relation Network (Skip-bigram)
- n gram์ด๋ ๋ค๋ฅธ ์ : ํ ํฐ n๊ฐ๋ฅผ ๋ณผ ๊ฑด๋ฐ ์ค๊ฐ์ ๋์์ ๋ณธ๋ค.
- ๋ฌธ์ฅ์์ ์๋ ๋ชจ๋ ํ ํฐ ์(pairs)์ ๋ณด๊ณ , ๊ฐ ์์ ๋ํด์ ์ ๊ฒฝ๋ง์ ๋ง๋ค์ด์ ๋ฌธ์ฅํํ์ ์ฐพ๋๋ค.
- ๋ชจ๋ ๋ค๋ฅธ ํ ํฐ์ ๊ด๊ณ๋ฅผ ๋ด ๋๋ค. ๋ชจ๋ ๋จ์ด๊ฐ์ ๊ด๊ณ๋ฅผ ๋ด์ ํจ์จ์ ์ด์ง ๋ชปํฉ๋๋ค.
- ht=f(xt,x1)+โฏ+f(xt,xt−1)+f(xt,xt+1)+โฏ+f(xt,xT)
- ์ฅ์ : ์ฌ๋ฌ ๋จ์ด๋ก ๋ ํํ์ ํ์ง
- ๋จ์ : ๋ชจ๋ ๋จ์ด๊ฐ์ ๊ด๊ณ๋ฅผ ๋ณด๊ธฐ ๋๋ฌธ์, ์ ํ ์ฐ๊ด์ด ์๋ ๋จ์ด๋ ๋ณด๊ฒ ๋จ. (computational efficiency ์์ข์์ง)
- Convolution Neural Network (CNN)
- k-gram์ hierachicallyํ๊ฒ ๋ณด๊ฒ ๋จ
- layer์ ๋ฒ์ฃผ
- 1์ฐจ์ cnn
- ์์ ๋ฒ์์ ํ ํฐ์ ๊ด๊ณ๋ฅผ ๋ด ๋๋ค. ๋ฐ๋ผ์ ๋ ๋จผ ๊ฑฐ๋ฆฌ์ ๋จ์ด๊ฐ์ ๊ด๊ณ๊ฐ ์์ ๊ฒฝ์ฐ ํ์งํ ์ ์๊ฑฐ๋ ๋ ๋ง์ convolution ์ธต์ ์์์ผํฉ๋๋ค. ht=f(xt,xt−k)+โฏ+f(xt,xt)+โฏ+f(xt,xt+k)
- ๋จ์ : ๋จ์ด ์ฌ์ด ๊ฑฐ๋ฆฌ๊ฐ ๊ธธ ๊ฒฝ์ฐ layer๋ฅผ ๋ง์ด ์์์ผ ํจ.
๊ทธ๋ฌ๋๊น, RN์ ๋๋ฌด ๊ธด ๋ฒ์(๋ชจ๋ ๋ฒ์)๋ฅผ ๋ณด๊ณ CNN์ ๋๋ฌด ์์ ๋ฒ์๋ฅผ ๋ณด๋ ๊ฒ์ด๋ค. ์ด ๋์ ์ ์ ์ถฉํ ์ ์์๊น? - self attention, Recurrent Neural Network(RNN)
- self attention
- t๋ฒ์งธ ํ ํฐ์ representation์ ๋ฝ์ ๋, ๋ ๋ค๋ฅธ function A(์ํ)๊ฐ ๊ด๊ณ์ฑ์ ํ์
- ์ฅ์ :
- Long range & short range dependency ๊ทน๋ณตํ ์ ์์ต๋๋ค.
- ๊ด๊ณ๊ฐ ๋ฎ์ ํ ํฐ์ ์ต์ ํ๊ณ ๊ด๊ณ๊ฐ ๋์ ํ ํฐ์ ๊ฐ์กฐํ ์ ์์ต๋๋ค.
- ๋จ์
- ๊ณ์ฐ ๋ณต์ก๋๊ฐ ๋๊ณ counting ๊ฐ์ ํน์ ์ฐ์ฐ์ด ์ฝ์ง ์์ต๋๋ค.
- Recurrent Neural Network(RNN)
- ht(๋ฉ๋ชจ๋ฆฌ)๋ฅผ ๊ฐ์ง๊ณ ์์ด์ ์ฝ๋ ์ ๋ณด ์ ์ฅ ๊ฐ๋ฅ
- ๋ฌธ์ฅ์ ์ ๋ณด๋ฅผ ์๊ฐ ์์ด์ธ ๋ฐ๋ผ ์์ถํ ์ ์์
- ๋จ์ :
- ๋ฌธ์ฅ์ด ๋ง์ด ๊ธธ์ด์ง ์๋ก ๊ณ ์ ๋ ๋ฉ๋ชจ๋ฆฌ์ ์์ถ๋ ์ ๋ณด๋ฅผ ๋ด์์ผ ํ๊ธฐ ๋๋ฌธ์, ์์์ ํ์ตํ ์ ๋ณด๋ฅผ ์์ต๋๋ค. ์ด๋ ๊ณง ์ ๋ณด์ ์์ค์ ๋ปํฉ๋๋ค.
- ํ ํฐ์ ์์ฐจ์ ์ผ๋ก ํ๋์ฉ ์ฝ์ด์ผ ํ๊ธฐ ๋๋ฌธ์, ํ๋ จ ํ ๋ ์๋๊ฐ ๊ธฐํ ๋คํธ์ํฌ ๋ณด๋ค ๋๋ฆฝ๋๋ค.
- Long Term Dependency ํด๊ฒฐ๋ฐฉ๋ฒ:
- bidirectional network๋ฅผ ์ฐ๊ฒ๋ฉ๋๋ค.
- LSTM, GRU ๋ฑ RNN์ ๋ณํ์ ์ฌ์ฉํฉ๋๋ค.
์ด ๋ค์ฏ๊ฐ์ง ๋ฐฉ๋ฒ๋ก ์ ๋ ธ๋๋ก์จ ํจ๊ป ์ฐ์ผ ์ ์๋ค. ๋ชจ๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ด๋ค.
๐ก
๋ณธ ํ์ด์ง๋ ์กฐ๊ฒฝํ ๊ต์๋ ‘๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด์ฒ๋ฆฌ’ ๊ฐ์๋ฅผ ์ ๋ฆฌํ ๋ด์ฉ์
๋๋ค.
Uploaded by Notion2Tistory v1.1.0