티스토리 뷰

1. Image captioning

- 자연어스럽게 문장을 풀어서 설명해줌

 

2. Recognize anything

- anything: 제로샷 특성을 반영

- 이후 track anything도 등장

 - 4000개의 객체를 인식 할 수 있음, 사진을 설명해주는 모델

- 사진 안에 있는 글자를 인식해 글자를 가지고 해석할 수 있다(사진에서 해시태그 뽑기!)

- 문자로 사진 검색할 수 있음(예.바다 검색)

- Tag2Text : 문장으로 만들어 주기 때문에 더 유용함

- grounded sam 은 그림까지 그려줌

- inference.py 파일 가져와서 step1~5 재구성 해주면 됨

 

3. 적용

- RAM++은 사진을 넣으면 글자가 나오고 글자를 가지고 사진을 해석할 수 있다. (이미지 해시태그 뽑는거)
- tag2text는 태그를 뽑고 문장으로 만들어 줌
- github에서 모델의 inference.py 파일도 가져와 step1~5 재구성해주면 됨

- RAM++ : https://huggingface.co/xinyu1205/recognize-anything-plus-model/blob/main/ram_plus_swin_large_14m.pth

- git 설치

- rampp.py

# step1: import modules
import numpy as np
import random
import torch
from PIL import Image
from ram.models import ram_plus
from ram import inference_ram as inference
from ram import get_transform

# step2: create inference object
model_path = "ram_plus_swin_large_14m.pth"
model = ram_plus(pretrained=model_path,
                            image_size=384,
                            vit='swin_l')
model.eval()
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device)

# step3: load data
image_path = "1641173_2291260800.jpg"
transform = get_transform(image_size=384)
image = transform(Image.open(image_path)).unsqueeze(0).to(device)

# step4: inference
res = inference(image, model)

# step5: post processing
print("Image Tags: ", res[0])
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함