[논문 리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 1. 왜 Swin Transformer가 필요했는가?1-1. CNN 시대의 한계컴퓨터 비전에서 CNN(ResNet, EfficientNet 등)은 오랫동안 표준 백본이었다. CNN에는 두 가지 강력한 inductive bias(모델이 학습 전부터 갖고 있는 구조적 가정)가 내장되어 있다.Locality (지역성): Conv 필터는 3×3, 5×5처럼 작은 영역만 본다. "가까운 픽셀끼리 관련성이 높다"는 가정이 구조에 녹아있어서, 적은 데이터로도 효율적으로 학습된다.Hierarchy (계층성): Layer가 깊어질수록 해상도는 줄고 채널은 늘어나면서, 저수준 feature(edge, texture) → 고수준 feature(object, scene)로 점진적으로 추상화된다. 이 multi-scale 피라.. [PAPER] REALM: Retrieval-Augmented Language Model Pre-Training https://arxiv.org/abs/2002.08909 REALM 논문은 구글이 발표한 논문으로 Language model에 Retrieval을 적용한 모델입니다. 기존의 언어 모델은 방대한 데이터로 사전 학습을 하더라도, 학습된 데이터 이외의 지식에 접근하지 못하는 한계가 있습니다. 이러한 모델은 학습 단계에서 제공된 정보에만 의존하여 knowledge를 parameter 내에서만 찾을 수 있습니다. 특히 오픈 도메인 질문 응답(Open-Domain QA)과 같은 과제에서는 사용자가 묻는 질문에 대한 답을 정확하게 제공하기 어려웠습니다. 최신 정보나 폭넓은 지식을 참고해야 하기 때문에 기존 언어 모델의 한계를 극복하고자 retrieval-augmented 언어 모델 학습을 하였습니다. 특징은 단순.. [논문 리뷰] InstructEval: Towards Holistic Evaluation of Instruction-Tuned Large Language Models InstructEval: Towards Holistic Evaluation of Instruction-Tuned Large Language Models 링크: https://arxiv.org/abs/2306.04757 11-12p A.3.1 Writing Evaluation Rubrics To evaluate the model outputs automatically, we use ChatGPT as an evaluator model. Specifically, we provide the generated output of a model and prompt the evaluator model to grade the generated text on a scale of 1 to 5 based on suitabl.. [논문 리뷰] JudgeLM: Fine-tuned Large Language Models are Scalable Judges Title: JudgeLM: Fine-tuned Large Language Models are Scalable Judges 링크: https://arxiv.org/abs/2310.17631 여기서 만든 데이터셋 format으로 만들고, judgeLM으로 평가 내리는 것을 생각하기 (Github) Summary A novel approach to evaluating large language models, which are advanced AI models capable of generating human-like text. The main chanllenge in assessing LLMs is that existing benchmarks and metrics don't comprehensively me.. [논문 리뷰] Re3: Generating Longer Stories With Recursive Reprompting and Revision Title: Re3: Generating Longer Stories With Recursive Reprompting and Revision 링크: https://arxiv.org/abs/2210.06774 0 Abstract 2,000 단어가 넘는 긴 이야기를 자동으로 생성하는 문제를 고려한다. 짧은 이야기에 비해 긴 길이의 줄거리의 일관성과 관련성은 도전과제다. 이를 해결하기 위해 Recursive Reprompting and Revision (Re3) 프레임워크를 제안한다. 일반 목적의 언어 모델에게 구조적인 전반적 계획을 구성하도록 요청 계획과 현재 스토리 상태에서 얻은 맥락 정보를 언어 모델 프롬프트에 반복적으로 주입하여 스토리 구절 생성 줄거리의 일관성과 전제의 관롼셩을 위해 다른 시퀀스를 재순.. [논문 리뷰] A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications Title: A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications 링크: https://arxiv.org/abs/2402.07927 프롬프트 엔지니어링 구성 요소의 시각적 분석: 프롬프트를 형성하는 중추 요소인 광범위한 데이터, 지침 및 컨텍스트와 사용자 입력 인터페이스에 대해 교육받은 LLM이다. 대규모 언어 모델(Large Language Models, LLM) 및 시각-언어 모델(Vision-Language Model VLMs) 내의 프롬프트 엔지니어링 분야의 발전에 대한 개요 각 기술의 방법론, 응용, 관련 모델, 사용된 데이터셋에 대한 설명과 장점 및 한계 논의 2.1 New T.. [Paper] Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels? Paper link: arxiv.org/abs/2307.11978 Code link: github.com/CEWu/PTNL 이 논문은 실험으로 결과를 입증하고 설득하는 형식이라서 table을 통해 설명을 이어갈 것 같습니다. 이걸 일주일 동안 붙잡으며 읽은 결과, 복잡한 architecture 그림과 복잡한 수식의 method가 없어서 겉으로 보기엔 쉬워 보이나 의외로 쉬운 논문은 아니고 vision-language 쪽을 한 번 싹 정리하며 unsupervised 까지 맛보고 싶다면 좋은 논문인 것 같아 필요하다고 판단된다면 추천 드리는 논문입니다. Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels? CLIP과 같은 vision.. [Paper] CLIP-Adapter: Better Vision-Language Models with Feature Adapters Paper: LINK Abstract Large-scale contrastive vision-language pre-training은 vision representation learning의 많이 발전되어 왔습니다. 전통적인 visual system은 고정된 discrete labels에 의해 학습되었고, 새로운 패러다임으로 open-vocabulary setting 에서 이미지와 raw text를 함께 align하여 학습하는 CLIP이 등장하였습니다. downstream task에서는 zero-shot predictions을 위해 신중하게 선택한 text prompt를 사용합니다. 여기서 prompt engineering을 non-trivial하게 다루는 것을 피하기 위해 제안된 것이 CoOp의 논문입.. [Paper] Global Adaptation meets Local Generalization: Unsupervised Domain Adaptation for 3D Human Pose Estimation 논문 링크: https://arxiv.org/abs/2303.16456 현재는 Abstract와 Figure 위주의 굵직한 내용만 살펴보았습니다. Abstract 사전 훈련된 2D-to-3D human pose lifting model을 보이지 않는 타겟 데이터셋에 적용할 때 일반적으로 도메인 이동 문제로 인해 성능에 있어 큰 degradation이 발생한다. 그 원인으로 두 가지 원인이 있다면 카메라 파라미터와 세팅에 따른 소스 데이터셋과 타겟 데이터셋 사이 포즈에 대한 global position 사이의 분포 차이 학습 데이터의 포즈 로컬 구조에 대한 다양성이 부족한 점 때문이다. 따라서 PoseDA에서는 global adaptation과 local generalization을 결합하여, 3D 인간 .. [Paper] AdaptPose: Cross-Dataset Adaptation for 3D Human Pose Estimation by Learnable Motion Generation 논문 리뷰 논문 링크: https://arxiv.org/abs/2112.11593 간단한 내용만 요약하였습니다. 추후에 계속 수정될 수 있습니다. AdaptPose: Cross-Dataset Adaptation for 3D Human Pose Estimation by Learnable Motion Generation 3D 인간 자세 추정에서 교차 데이터셋의 일반화의 주요 도전 과제는 자세의 깊이(depth)에 대한 모호성 때문에 문제가 불안정하다는 점입니다. 이러한 문제를 해결하기 위해 딥러닝 모델을 사용해서 2D 이미지에서 3D 자세를 추정하는 것이 가능하지만, 이 모델은 유사한 데이터셋에서 훈련/테스트 할 때만 정확한 결과를 얻을 수 있습니다. 따라서 새로운 데이터셋으로 모델을 사용하려면 이전 데이터셋과 다른 .. [논문 리뷰] CLIPstyler: Image Style Transfer with a Single Text Condition Abstract Keyword: only single text condition, patch-wise text-image matching loss, CLIP(pre-trained text-image embedding model) 원래 존재하는 스타일 트랜스퍼 방법은 스타일 이미지의 정보를 콘텐츠 이미지로 바꾸기 위한 참고 스타일 이미지가 필요하다. 우리의 프레임워크는 이 스타일 이미지 없이 스타일을 원하는 스타일의 텍스트 설명만으로 가능하다. CLIP의 사전 훈련된 text-image 임베딩 모델을 사용해서 오로지 single text condition만으로 콘텐츠 이미지의 스타일을 조정하는 것을 증명한다. 특별히 우리는 사실적인 텍스쳐 전송을 위한 다양한 관점의 증강을 하는 patch-wise text.. [논문 리뷰] A Style-Based Generator Architecture for Generative Adversarial Networks Paper: https://arxiv.org/abs/1812.04948 Video: https://youtu.be/kSLJriaOumA Code: https://github.com/NVlabs/stylegan StyleGAN의 output images이다. "A Style-Based Generator Architecture for Generative Adversarial Networks"은 Ian J. Goodfellow 등의 저자들이 2019년에 발표한 논문이다. 이 논문은 기존의 생성적 적대 신경망(GANs)의 생성자 아키텍처를 개선하여 고해상도 이미지 생성의 질과 다양성을 향상시키는 새로운 접근 방식을 제안한다. 이 논문에서 제안하는 아키텍처는 "style-based generator"로 알려져 있.. 이전 1 2 다음