'AI/AI 서비스 개발' 카테고리의 글 목록 (7 Page)

[AI 서비스 개발] 사진 해석 (Image captioning)

1. Image captioning- 자연어스럽게 문장을 풀어서 설명해줌 2. Recognize anything- anything: 제로샷 특성을 반영- 이후 track anything도 등장 - 4000개의 객체를 인식 할 수 있음, 사진을 설명해주는 모델- 사진 안에 있는 글자를 인식해 글자를 가지고 해석할 수 있다(사진에서 해시태그 뽑기!)- 문자로 사진 검색할 수 있음(예.바다 검색)- Tag2Text : 문장으로 만들어 주기 때문에 더 유용함- grounded sam 은 그림까지 그려줌- inference.py 파일 가져와서 step1~5 재구성 해주면 됨 3. 적용- RAM++은 사진을 넣으면 글자가 나오고 글자를 가지고 사진을 해석할 수 있다. (이미지 해시태그 뽑는거) - tag2text는..

AI/AI 서비스 개발 2024. 12. 29. 12:44

[AI 서비스 개발] 글자 인식 OCR

- 패키지마다 의존성이 다르기 때문에 가상환경 생성해서 새로 하는 것이 좋음 1. easy OCR : https://github.com/JaidedAI/EasyOCR/blob/master/examples/easyocr_framework.jpeg- 성능을 높이기 위해 재학습 시키거나 재학습한 모델을 사용하는 것이 좋음 2. CRAFT : Text Detection 단계에서 사용하는 모델, 문자 영역을 감지- 텍스트가 위치한 영역의 바운딩 박스를 반환하며, 이후 단계에서 텍스트를 인식(Recognition)하는데 도움을 준다 3. 패키지 설치pip install easyocr 4. 사용: Task에 따라 데이터/모델만 갈아 끼우면 됨# step1: 모듈 불러오기import easyocr# step2: 추론기..

AI/AI 서비스 개발 2024. 12. 29. 12:10

[AI 서비스 개발] 안면인식

1. Insightface - 안면 인식에는 Face detection, Face Landmark, Face Recognition의 task 가 사용된다.- insightface는 상업적으로 사용 가능- 0.4 이상이면 동일인, 0.4 미만이면 그레이존 (0~0.2 의심), 0 미만은 타인- 동양인은 잘 못맞춰서 동양인으로 학습한 모델을 사용하는게 좋음 2. 터미널(cmd)에서 설치pip install insightface 3. 윈도우즈에서 설치 오류시- 컴파일러 오류시 Microsoft C++ Build Tools 설치: https://visualstudio.microsoft.com/visual-cpp-build-tools/ 4. 추론기 onnxruntime 설치pip install onnxrunt..

AI/AI 서비스 개발 2024. 12. 28. 18:19

[AI 서비스 개발] 개발 환경 설정

1. mini forge- 아나콘다 오픈소스가 기업들에게 유료화되었다. 완전 오픈 소스를 사용하고자 한다면 conda forge- 최소한의 기능(가상환경+python)만 필요하다면 miniforge: https://github.com/conda-forge/miniforge- 다운로드: https://conda-forge.org/download/* 모델을 사용할때도 라이센스를 꼭 확인하고 사용(예: NC는 non- commercial, 상업적 사용 불가) - 다운로드 후 실행 > 추가정보 > 설치 - 환경 변수 자동 설정을 위해 클릭* 가상환경 만들때 python 버전을 지정할 수 있어 다른 버전의 python을 사용할 수 있기 때문에 서 굳이 다른 버전을 추가로 설치할 필요가 없어 경고는 신경 쓸 필요가..

AI/AI 서비스 개발 2024. 12. 28. 15:14

[AI 서비스 개발] AI 모델 트렌드 파악하기, 허깅스페이스, 미디어파이프라인

1. 허깅스페이스- https://huggingface.co 2.models > task 별로 모델을 선택 할 수 있다. Trend를 쉽게 파악 할 수 있다. 3. 분야별 Task (나의 데이터와 문제에 맞는 task 찾는것이 중요)구분Task설명Multimodal:다양한 유형의 데이터를 동시에 처리/통합해 학습Audio-Text-to-Text오디오 입력과 텍스트를 기반으로 텍스트 출력을 생성Image-Text-to-Text이미지와 텍스트를 입력받아 텍스트 출력을 생성Visual Question Answering이미지와 질문(텍스트)을 입력받아 질문에 대한 답변을 생성Document Question Answering문서와 질문을 입력받아 답변을 생성Video-Text-to-Text비디오와 텍스트를 입력으..

AI/AI 서비스 개발 2024. 12. 28. 14:11

[AI 서비스 개발] 서비스 기획 구조

그동안은 그때 그때 생각나는 기능을 추가하는 방식을 생각했었는데, 비즈니스 관점에서 생각해보는 경험을 해봤다.나의 맥주 추천 챗봇도 오늘 연습을 바탕으로 다시 정리해 봐야겠다. 1. 주제: 2. 해결하려는 문제3. 페르소나 (타깃 대상)4. 주요 기능5. 비즈니스 모델 : 어떻게 수익화 할건지6. 역할분담 : 기획자/디자이너/마케너/데이터분석가/개발자 1. 주제 : 과도한 화면 사용을 예방하고 건강한 디지털 습관을 만들어주기 위한 어플리케이션 2. 해결하려는 문제: 자극적인 디지털 매체들의 홍수에서 아이들을 보호하자! 3. 페르소나 : 과도한 화면 사용을 예방하고 건강한 디지털 습관을 만들어주기 위한 어플리케이션 4. 주요 기능: - 금지 어플 등록 시 해당 어플을 일정 시간 사용하면 어플이 잠김..

AI/AI 서비스 개발 2024. 12. 27. 23:59

[AI 서비스 개발] RAG을 위한 PDF load, 텍스트 분할과 Embedding

1. 진행 순서- PDF를 참고해서 답변하는 chatbot을 만들고 싶은데, 답별할 때 해당 정보가 있는 page 번호를 알려줬으면 했다.- 원래 페이지 번호를 정상적으로 가져오는 경우도 있지만, 나의 경우에는 에러가 나서 따로 페이지번호를 추가해줬다.PDF 파일 로드 > 페이지 번호 추가(메타데이터) > 텍스트 분할 (문장) > 임베딩 > 벡터 데이터베이스 저장/로드 > 검색 쿼리 및 결과 출력 > 테스트 2. pdf 파일 로드와 페이지 번호 추가# 1. PDF 로드loader = PyPDFLoader("2021_Guidelines_Beer.pdf")documents = loader.load()# 2. 각 페이지에 페이지 번호 추가for i, doc in enumerate(documents): d..

AI/AI 서비스 개발 2024. 12. 11. 23:32

[AI 서비스 개발] 프롬프트 엔지니어링

방법설명1. 명확한 지침 작성- 객관적이고 수치화 김치찌개 > 김치찌개 끓이는법 > 초간단 김치찌개 끓이는 법많이 작성해주세요 > 50% 이상 작성해주세요쉬운 단어 > 중학교 학생이 이해할 수 있는 단어 2. 페르소나 지정인공지능을 설명해주세요 > 당신은 중학교 교사입니다3. 작성 예시 제공아래 예시를 참고해서 작성해주세요.예시가 많으면 few-shot, 하나면 one-shot, 없으면 zero shot4. 구분자 사용 및 구조화뉴스 기사를 한 문장으로 요약해 주세요.요구사항1.요구사항2.5. 출력 길이 제한300자 이내로 작성하세요.이메일만 작성해주세요. 그 외의 다른 말은 하지 마세요.구분자를 이용해 3개의 요점만 작성하세요6. 참조 텍스트(정답이 나오는 논리적 과정을 같이 주기) 1+1은?10+10..

AI/AI 서비스 개발 2024. 12. 6. 12:42

용감해지고 싶은 쫄보의 도전기

티스토리툴바

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30