일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- 뉴노멀챌린지
- 스몰토크
- 영어공부
- #Ringle
- 장어랑고기같이
- 영어로전세계와소통하기
- 영어회화
- 둔촌역장어
- #영어공부
- 링글리뷰
- 링글경험담
- #링글
- 링글
- 소통챌린지
- #nlp
- #직장인영어
- #체험수업
- 해외취업컨퍼런스
- 성내동장어
- #영어발음교정
- 영어공부법
- CommunicateWiththeWorld
- 강동구장어맛집
- 영어시험
- 총각네장어
- 화상영어
- 링글커리어
- #링글후기
- Ringle
- 오피스밋업
- Today
- Total
목록Review of Papers (5)
Soohyun’s Machine-learning
Contribution Suggest a way for improvement word-level language model with character level embeddings Pros and Cons of the Approach Used network in the paper was general things at the time, but input was different, character-level embeddings. The results was better if the language had more various morphemes. Yet character-level embeddings has a tradeoff between efficiency and time. Model Architec..
BERT가 충분하게 트레이닝되지 않았다-고 주장하고 시작한다. RoBERTa의 contribution 1) 더 나은 downstream task 성능을 낼 수 있는, BERT의 디자인 선택 (design choices), 그리고 트레이닝 전략 (training strategies)을 제시 2) CC-NEWS라는 새로운 데이터셋을 사용, 또한 사전학습(pretraining)에서 더 많은 데이터를 사용하는 것이 downstream tasks에서의 성능을 향상시키는 걸 확인 3) 트레이닝 향상은 masked language modeling이 올바르게 디자인 된 조건하에서, 최근에 발표된 방법들에 비견할만 함 RoBERTa (로베르타)의 특징 == 오리지널 BERT와의 차이점 1) dymanic masking ..
- GPT2의 계승 모델로, GPT3라고 부른다 - GPT는 Generative Pre-Training의 약자 (GPT1 논문 제목이 Improving Language Understanding by Generative Pre-Training) - input : N개의 단어 sequence - output : N+1번째의 단어 - GPT2 사이즈 업 + Unsupervised pre-training (like NLG) + Sparse Attention + No fine-tuning Alternating dense and Locally banded sparse attention - (a) Transaformer처럼 앞쪽의 전부를 보면 연산량이 많으므로, (b)나 (c)처럼 제한된 개수의 input token..
TabNet 라이브러리 깃허브 링크 : https://github.com/dreamquark-ai/tabnet Abstract TabNet uses sequential attention to choose which features to reason from at each decision step, enabling interpretability and more efficient learning as the learning capacity is used for the most salient features. keywords - interpretability - self-supervised learning - single deep learning architecture (for feature selection..
Novelty 1) very fast and strong with a single CNN layer (이전에도 CNN 쓴 논문들은 있었으나, 큰 효과를 보지는 못함) 2) pre-trained word vector 사용 (google negative300.bin download link) a summary of Abstract & Model architecture We report on a series of experiments with CNN trained on top of pre-trained word vectors for sentence-level classification tasks. We show that a simple CNN with little hyperparameter tuning and..