[AI 서비스 개발] 사진 해석 (Image captioning)

티스토리 뷰

AI/AI 서비스 개발

[AI 서비스 개발] 사진 해석 (Image captioning)

brave_sol 2024. 12. 29. 12:44

1. Image captioning

- 자연어스럽게 문장을 풀어서 설명해줌

2. Recognize anything

- anything: 제로샷 특성을 반영

- 이후 track anything도 등장

- 4000개의 객체를 인식 할 수 있음, 사진을 설명해주는 모델

- 사진 안에 있는 글자를 인식해 글자를 가지고 해석할 수 있다(사진에서 해시태그 뽑기!)

- 문자로 사진 검색할 수 있음(예.바다 검색)

- Tag2Text : 문장으로 만들어 주기 때문에 더 유용함

- grounded sam 은 그림까지 그려줌

- inference.py 파일 가져와서 step1~5 재구성 해주면 됨

3. 적용

- RAM++은 사진을 넣으면 글자가 나오고 글자를 가지고 사진을 해석할 수 있다. (이미지 해시태그 뽑는거)
- tag2text는 태그를 뽑고 문장으로 만들어 줌
- github에서 모델의 inference.py 파일도 가져와 step1~5 재구성해주면 됨

- RAM++ : https://huggingface.co/xinyu1205/recognize-anything-plus-model/blob/main/ram_plus_swin_large_14m.pth

- git 설치

- rampp.py

# step1: import modules
import numpy as np
import random
import torch
from PIL import Image
from ram.models import ram_plus
from ram import inference_ram as inference
from ram import get_transform

# step2: create inference object
model_path = "ram_plus_swin_large_14m.pth"
model = ram_plus(pretrained=model_path,
                            image_size=384,
                            vit='swin_l')
model.eval()
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device)

# step3: load data
image_path = "1641173_2291260800.jpg"
transform = get_transform(image_size=384)
image = transform(Image.open(image_path)).unsqueeze(0).to(device)

# step4: inference
res = inference(image, model)

# step5: post processing
print("Image Tags: ", res[0])

'AI > AI 서비스 개발' 카테고리의 다른 글

[AI 서비스 개발] 오디오 whisper 사용해보기 (0)	2024.12.29
[AI 서비스 개발] 자연어처리, 허깅페이스 Transformers (4)	2024.12.29
[AI 서비스 개발] 글자 인식 OCR (0)	2024.12.29
[AI 서비스 개발] 안면인식 (1)	2024.12.28
[AI 서비스 개발] 개발 환경 설정 (1)	2024.12.28

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

글 보관함

용감해지고 싶은 쫄보의 도전기

티스토리 뷰

[AI 서비스 개발] 사진 해석 (Image captioning)

'AI > AI 서비스 개발' 카테고리의 다른 글

티스토리툴바