Building an encoder-decoder transformer architecture for sequence-to-equence language tasks like text translation and summarization Encoder-Decoder Connection: The encoder connects to the decoder through cross-Attention, allowing the decoder to use the encoder's final hidden states to generate the target sequence.Cross-Attention Mechanism: This mechanism helps the decoder "look back" at the inpu..
Transformer 모델에서 inference는 크게 Prefill과 Decode의 두 단계로 이루어진다. 이 두 단계는 입력 토큰을 처리하고, 출력을 생성하는 방식이 다르며, 각각 성능에 중요한 영향을 미친다. 또한, 효율적인 추론을 위해 KV (Key-Value) 캐싱이 활용되는데, 이를 통해 불필요한 연산을 줄이고 속도를 최적화할 수 있다. Prefill 단계: 입력 토큰 처리 단계 Prefill 단계는 모델이 전체 입력 시퀀스를 한 번에 병렬로 처리하여, 각 토큰을 key-value 쌍으로 변환하는 과정이다. 이때 행렬-행렬 곱셈(matrix-matrix multiplication) 연산을 통해 모든 토큰이 병렬로 처리되므로, 여러 토큰을 동시에 계산할 수 있어 GPU를 최대로 활용할 수 있다...
최근 NLP를 공부하면서 프롬프트(Prompt)라는 것을 알게 되었고, 현재도 프롬프트 러닝에 대해 이해하기 위해 노력 중이다. 일단 자연어처리 수업을 들으며 정확히는 아니더라도 NLP의 개념과 흐름에 대해 전반적으로 배우고 있는게 많은 도움이 되고 있다. 특히 Pre-train, Fine-tuning의 모델인 BERT를 공부한게 가장 잘한 것 같다. BERT는 prompt-based NLP가 시작하는 지점이라고 말하기도 한다. NLP의 패러다임을 간단히 살펴보면 아래와 같다. a. Fully Supervised Learning (Non-Neural Network) - Features b. Fully Supervised Learning (Neural Network) - Architecture (e.g. ..
NLP의 기초적인 내용, Encode-Decoder, Encoder Only, Decoder Only model 등에 대한 정리입니다. 잘못된 내용 있으면 지적 부탁드리고 참조는 아래 남겨두었습니다. 감사합니다. NLP tutorial Encoder-only Models(BERT) Decoder-only Models(GPT) Encoder-decoder Models (BART) In-Context Learning (GPT-3) Prompting for Few-shot Learning Natural language processing Natural language processing Tokenization Word Embedding 1. NLP Giving computers the ability to un..
단어 임베딩은 차원 축소와 함께 원-핫 인코딩의 대안으로 생각할 수 있습니다. 텍스트 데이터를 다룰 때 신경망을 포함한 기계 학습 모델에 입력하기 전에 이를 숫자로 변환해야 합니다. 단순함을 위해 단어는 범주형 변수와 비교할 수 있습니다. 범주형 기능을 숫자로 변환하기 위해 원-핫 인코딩을 사용합니다. 그렇게 하기 위해 각 범주에 대해 더미 기능을 만들고 0과 1로 채웁니다. 마찬가지로 텍스트 데이터의 단어에 대해 원-핫 인코딩을 사용하는 경우 각 단어에 대해 더미 기능을 갖게 됩니다. 이는 10,000단어의 어휘에 대해 10,000개의 feature를 의미합니다. 이것은 단어 벡터를 위한 큰 저장 공간을 요구하고 모델 효율성을 감소시키기 때문에 실현 가능한 임베딩 접근 방식이 아닙니다. 임베딩 레이어를..
Justin Johnson의 Deep Learning for Computer Vision 강의로 Lecture 12: Recurrent Neural Networks 입니다. 이번 강의에서 다루는 내용은 RNN, LSTM, GRU Language modeling Sequence-to-sequence Image captioning Visual question answering 입니다. 이중 RNN, LSTM, GRU 관련된 내용 위주로 다룰 것 같습니다. Recurrent Neural Networks RNN은 sequence를 진행하며 업데이트 해 줄 'internal state'를 갖고 있다는 것이 핵심 아이디어입니다. 모든 스텝마다 vector $x$의 sequence마다 recurrence formul..
이번 포스팅은 RNN과 LSTM에 대해 공부하고 정리하려고 합니다.🚀 이전에 RNN과 LSTM에 대해 따로 정리한 자료가 있습니다. 해당 자료는 일러스트를 이용해서 정리한 자료이니 필요하신 분은 참고하세요. 🔗 Recurrent Neural Networks (순환 신경망) 🔗 Long Short-Term Memory(LSTM) and GRU Recurrent Neural Networks Recurrent Neural Networks은 이전의 inputs을 memory에 기억하는 최초의 algorithms입니다. RNN 아이디어의 시작은 sequential information의 이용이었습니다. 전통적 신경망에서는 모든 inputs과 outputs이 서로 독립적이라 가정합니다. 그러나 많은 task에서 이..
이번 포스팅은 LSTM의 아주 기초적인 부분에 대해 공부해보려고 합니다.🚀 기본기를 탄탄하게 쌓는 포스팅이 되면 좋겠군요! *해당 포스팅은 Reference에 있는 일러스트로 설명하는 LSTM 포스팅을 바탕으로 번역하여 정리했음을 밝힙니다. * 이전 RNN의 내용을 보고 싶으시다면 두 번째 링크를 참고 부탁드립니다. Reference 🔗 Illustrated Guide to LSTM’s and GRU’s: A step by step explanation 🔗 RNN(Recurrent Neural Networks, 순환 신경망) 그림으로 이해하기 Short-term Memory의 문제 Recurrent Neural Networks는 Short-term Memory 문제를 갖습니다. sequence가 매우 길..
- Total
- Today
- Yesterday
- support set
- 딥러닝
- style transfer
- 파이썬 클래스 계층 구조
- vscode 자동 저장
- prompt learning
- 데이터셋다운로드
- 서버에다운
- CNN
- stylegan
- cs231n
- 도커
- 서버구글드라이브연동
- 구글드라이브연동
- 프롬프트
- 구글드라이브다운
- NLP
- 파이썬
- few-shot learning
- 도커 컨테이너
- 구글드라이브서버연동
- 파이썬 클래스 다형성
- 파이썬 딕셔너리
- 구글드라이브서버다운
- python
- docker
- Prompt
- Unsupervised learning
- 퓨샷러닝
- clip
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |