Deep-Dive AI

[논문 리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 1. 왜 Swin Transformer가 필요했는가?1-1. CNN 시대의 한계컴퓨터 비전에서 CNN(ResNet, EfficientNet 등)은 오랫동안 표준 백본이었다. CNN에는 두 가지 강력한 inductive bias(모델이 학습 전부터 갖고 있는 구조적 가정)가 내장되어 있다.Locality (지역성): Conv 필터는 3×3, 5×5처럼 작은 영역만 본다. "가까운 픽셀끼리 관련성이 높다"는 가정이 구조에 녹아있어서, 적은 데이터로도 효율적으로 학습된다.Hierarchy (계층성): Layer가 깊어질수록 해상도는 줄고 채널은 늘어나면서, 저수준 feature(edge, texture) → 고수준 feature(object, scene)로 점진적으로 추상화된다. 이 multi-scale 피라..

dos2unix란? dos2unix란?문제의 원인: 줄바꿈 문자 차이Windows와 Linux/Mac은 텍스트 파일에서 줄바꿈을 표현하는 방식이 다릅니다.운영체제 줄바꿈 문자 표기WindowsCR + LF\r\nLinux/MacLF\nWindows에서 만든 파일을 Linux(WSL)에서 실행하면 \r이 남아서 오류가 납니다.# 이런 오류가 났음$'\r': command not foundLinux 입장에서는 \r을 명령어의 일부로 잘못 인식해서 생기는 오류입니다.dos2unix가 하는 일\r → \n 으로 변환해주는 도구입니다. 이름 그대로 DOS(Windows) 형식을 Unix(Linux) 형식으로 바꿔줍니다.# 단일 파일 변환dos2unix 파일명.sh# 폴더 전체 한 번에 변환 (이번에 쓴 방법)find scripts/..

3D 비전 개념 정리 1. 3D 공간에서 물체의 위치: x, y, z현실 세계는 3차원입니다. 어떤 물체의 위치를 표현하려면 3개의 숫자가 필요합니다. y (위/아래) ↑ | | +------→ x (좌/우) / / ↓ z (앞/뒤 = 깊이 방향)카메라 좌표계에서 예를 들면:x = -9.761mm → 카메라 중심에서 왼쪽으로 약 1cmy = 90.903mm → 카메라 중심에서 아래로 약 9cmz = 1456.451mm → 카메라에서 약 1.5m 떨어진 거리 (깊이)이것만으로 "물체가 어디에 있는지"는 알 수 있습니다.하지만 "물체가 어떤 방향으로 놓여있는지"는 알 수 없습니다.2. 회전 정보 (Rotation)같은 위치에 있어도, ..

[python] AttributeError: module 'cv2.dnn' has no attribute 'DictValue' cv2.dnn.DictValue와 관련된 AttributeError는 주로 OpenCV 버전 간의 파괴적 변경(Breaking Changes) 때문에 발생합니다. 특히 OpenCV 4.10 버전 이후부터 내부 구조가 변경되면서 기존 코드가 참조하던 속성이 사라지는 경우가 많습니다.🛑 에러의 원인: OpenCV 버전 불일치OpenCV 4.10.x 이상 버전(현재 4.13 등)에서는 cv2.dnn 모듈의 내부 구조가 대대적으로 개편되었습니다. 이 과정에서 DictValue 같은 특정 속성이 제거되거나 위치가 변경되었는데, 이를 사용하는 외부 라이브러리(Albumentations, YOLO 관련 도구 등)가 최신 OpenCV를 따라가지 못할 때 발생합니다. ✅ 해결 과정 상세 분석1단계: 기존 패키지 및 잔..

AttributeError: 'torch._C._CudaDeviceProperties' object has no attribute 'total_mem'. Did you mean: 'total_memory'? 이 에러는 PyTorch의 torch.cuda.get_device_properties() 함수가 반환하는 객체에서 total_mem이라는 잘못된 속성을 호출했을 때 발생합니다. 올바른 속성 이름은 total_memory입니다. 해결 방법코드 내에서 total_mem을 total_memory로 수정하십시오.오류가 발생하는 코드 예시:pythonimport torchprops = torch.cuda.get_device_properties(0)print(props.total_mem) # 수정된 코드:pythonimport torchprops = torch.cuda.get_device_properties(0)print(props.total_memory) # 추가적인 원인 (CUDA 미설치)만약 total..

AssertionError: MMCV==2.2.0 is used but incompatible. Please install mmcv>=2.0.0rc4, <2.2.0. 이 에러의 의미는 ❌ MMCV 2.2.0 이 설치돼 있는데❌ MMDetection이 요구하는 범위는mmcv >= 2.0.0rc4, 입니다. 따라서 mmcv 다운그레이드 해야하는데, 기존 mmcv 제거합니다.pip uninstall -y mmcv mmcv-full호환 버전 설치(권장: 2.1.0)를 진행합니다. mim install "mmcv>=2.0.0rc4, 또는 정확히: mim install mmcv==2.1.0 마지막으로 설치가 잘 되었는지 확인합니다. python -c "import mmcv; print(mmcv.__version__)" → 2.1.x 나오면 OK.

AttributeError: module 'pkgutil' has no attribute 'ImpImporter'. Did you mean: 'zipimporter'? 오랫동안 사용이 중단된 pkgutil.ImpImporter 클래스가 제거됨에 따라 pip 명령이 작동하지 않을 수 있다고 합니다.# Source - https://stackoverflow.com/a/77364602# Posted by Talha Tayyab, modified by community. See post 'Timeline' for change history# Retrieved 2026-02-04, License - CC BY-SA 4.0python -m ensurepip --upgradepython -m pip install --upgrade setuptoolspython -m pip install 또는 아래 방법을 적용해보세요.pip install --upgrade setuptools 또한,..

bash: nano: command not found nano가 설치되어 있지 않은 경우에 이렇게 출력됩니다. apt-get install nano 또는 apt install nano 으로 실행해보세

Stanford CS231N Lecture 8: Transformers 정리 📋 목차Transformer의 탄생 배경Transformer Block 완전 해부Self-Attention 심층 분석Multi-Head Attention의 모든 것Layer Normalization 이해하기Feed-Forward Network (MLP)Positional EncodingMasked Self-Attention계산 복잡도와 Flash AttentionTransformer for LLM (언어 모델)Vision Transformer (ViT)최신 Transformer 변형들Transformer 규모의 진화실습: 직접 구현해보기1. Transformer의 탄생 배경1.1 "Attention is All You Need"2017년, Vaswani et al.이 발표한 논문 "Attention i..

센서별 한계와 원인 1️⃣ 반사 재질이 ToF, Structured Light에서 노이즈가 생기는 이유❗ 핵심 문제: 거울 반사 (Specular Reflection)일반 물체 vs 반사 물체의 차이:📦 일반 물체 (확산 반사, Diffuse Reflection):센서 → 빛 발사 → [물체] → 사방으로 산란 → 센서로 일부 반사 ↗ ↑ ↖ ← ↑ → ↘ ↓ ↙→ 센서가 빛을 잘 받음 ✅🪞 반사 물체 (거울 반사, Specular Reflection):센서 → 빛 발사 → [거울/금속] → 한 방향으로만 반사 →💨 ↗ ..

3D Depth 센서 원리와 장단점 정리 3D Depth 센서 원리와 장단점 정리 1️⃣ Passive Stereo Vision✅ 핵심 원리:- 두 개의 카메라로 같은 장면을 촬영- 두 눈이 보는 각도 차이(시차)로 거리 계산- 외부 광원(태양광, 실내 조명)에 의존✅ 장점:- 추가 광원 불필요- 실외에서도 사용 가능❌ 단점:- 어두운 곳: 밝기 부족으로 카메라에 아무것도 안 보임- 질감 없는 물체(흰 벽 등): 특징점이 없어 대응점 매칭 불가- 계산량이 많아 느릴 수 있음비유:왼쪽 카메라: ⚪⚪⚪⚪⚪오른쪽 카메라: ⚪⚪⚪⚪⚪→ 어느 점이 같은 점인지 알 수 없음!vs.왼쪽 카메라: 🔴🔵⚪🟢🟡오른쪽 카메라: 🔴🔵⚪🟢🟡→ 색깔(질감)이 다르니 매칭 가능!2️⃣ Active Stereo Vision✅ 핵심 원리:- 두 개의 카메라 ..

3D Depth 센서에 대한 이해 🎯 기본 개념: 깊이(Depth)란?카메라로 사진을 찍으면 2D 이미지만 얻는다. 하지만 물체가 얼마나 멀리 있는지를 알려면 깊이 정보가 필요하다. 이게 바로 3D Depth 센서가 하는 일이다.1️⃣ Stereo Vision (스테레오 비전)🔍 핵심 원리: 사람의 두 눈처럼 작동1) Passive Stereo (수동 스테레오)어떻게? 두 개의 카메라로 같은 장면을 찍어서 비교일상 비유:한쪽 눈을 감고 연필을 잡으려면 어렵지만, 두 눈으로 보면 쉽죠?두 눈이 보는 각도 차이로 거리를 알 수 있어요장점: 추가 광원 불필요, 실외에서도 사용 가능단점:밝기가 부족하거나 질감이 없는 물체(흰 벽 등)는 어려움계산량이 많아서 느릴 수 있음Active Stereo (능동 스테레오)어떻게? 두 카메라 + 적외선 ..

이전 1 2 3 4 ··· 23 다음

라이브러리 브랜드 그룹 | Deep-Dive AI

티스토리툴바