1. 언제 검정이 필요할까?1) 그룹 간 평균 차이가 유의미한가? 그룹이 2개면 T-검정, 그룹이 3개이상이면 ANOVA- t-검정 또는 ANOVA 검정을 수행하기 전에, 독립성 > 정규성 > 등분산성 순으로 가정을 만족하는지 확인가정확인방법가정의 가정가정 만족하지 않는다면t-test, ANOVA 대신독립성- 연구설계(무작위 샘플링, 실험군-대조군)- 범주형: 카이제곱 검정- 잔차: Durbin-Watson, ACF 플롯- 군집: ICC- 시계열: Ljung-Box, ACF* 카이제곱 독립성 검정- 각 기대빈도 값 5 이상(5미만은 피셔의 정확검정)- 데이터 독립적으로 수집- Paired t-test- Mixed Effects Model정규성- 시각적: 히스토그램, Q-Q플롯- Shapiro-Wilk-..
1. Docker란?- 컨테이너 기반의 가상화 시스템, 실행 환경을 독립적으로 격리한 컨테이너- 모두가 동일한 개발환경을 사용할 수 있어 물리적 환경의 차이, 서버 구성의 차이를로 인한 문제점을 방지할 수 있다.- 한 대의 서버에 웹 서버를 여러개 설치도 가능하다.- 도커와 가상화 기술의 차이: 컨테이너는 운영체제의 일부 기능을 호스팅 컴퓨터에 의존- AWS EC2: 각각의 인스턴스가 완전히 독립된 컴퓨터처럼 동작한다.(가상화 기술)- AWS ECS: 별도로 가상 서버를 만들지 않아도 컨테이너 이미지를 그대로 실행할 수 있다. 2. 서버란?- 어떤 서비스를 제공하는 것(기능적 의미의 서버/물리적 컴퓨터로서의 서버)- 소프트웨어를 설치해 기능을 갖춘다* 예시- 웹 서버: 웹사이트 기능을 제공하는 서버- 데..
1. IQR 이상치 : quantile()import pandas as pddf = pd.read_csv('train.csv')df.info()# 1-1. age 컬럼의 3사분위수와 1사분위수의 차를 절대값으로 구하고, 소수점 버려서, 정수로 출력¶df['Age'].isna().sum()Q1 = df['Age'].quantile(0.25)Q3 = df['Age'].quantile(0.75)IQR = Q3-Q1print(int(abs(Q3-Q1)))#1-2. (loves반응+wows반응)/(reactions반응) 비율이 0.4보다 크고 0.5보다 작으면서, type 컬럼이 'video'인 데이터의 갯수 fb = pd.read_csv('fb.csv')fb.info()fb.head()fb.query('((lo..
1. RAG란?- Retrieval-Augmented Generation의 약자로, 텍스트 생성 모델과 정보 검색 시스템을 결합한 AI 기술- 정보 검색(Retrieval)과 생성( Generation)의 단계로 나뉜다.- 데이터베이스 사용 외에도 외부 api를 활용해 "검색"한 결과를 LLM에 전달하고 답을 "생성"하면 RAG라고 할 수 있다. 2. RAG 구현시 사용한 라이브러리# 파일 읽어오기from langchain.document_loaders import TextLoader # 텍스트 파일from PyPDF2 import PdfReader # PDF 파일# 문서를 청크로 분할from langchain.text_splitter import RecursiveCharacterTextSplitte..
Q. 요즘같은 빅데이터(?)시대에는 정규성 테스트가 의미 없다는 주장이 있습니다. 맞을까요? 1. 정규성 테스트란? - 데이터가 정규 분포를 따르는지 여부를 확인하는 것입니다. 2. 왜 하나요?- 정규성 가정을 필요로 하는 특정 통계 분석이나 모델을 사용하는 경우- 표본이 작거나 특정 표본의 특성을 분석해야 하는 경우- 표본이 작고 정규성을 띠지 않으면, 데이터의 중심 경향이나 분포를 평균과 표준편차만으로 설명하기 어렵기 때문에, 정규성 검정을 통해 정규에 가깝다고 확인되어야 신뢰구간이나 가설 검정을 수행할 때 더 높은 신뢰성을 가질 수 있습니다.- 비모수적 모델이나, 비정규 분포를 처리하는 모델은 생략해도 무방합니다. - 데이터가 정규성을 띠지 않더라도 표본 크기가 크면 중심극한정리에 따라 데이터의 평..
1. API연결# API 연결import osos.environ["OPENAI_API_KEY"] = "sk로 시작하는 자기 API Key 입력" 2. llm에 입력할 템플릿 작성# 템플릿 작성from langchain import PromptTemplatetemplate = "서울에서 프렌차이즈점이 아닌 유명한 {food} 맛집 세 곳 추천해줘"prompt = PromptTemplate( input_variables=["food"], template=template) 3. llm 생성# 모델 생성from langchain.chat_models import ChatOpenAIllm = ChatOpenAI(temperature=0, model='gpt-4') 4. 모델에 전달 및 예측 결과 반환..
1. AWS란?- 아마존에서 제공하는 클라우드 플랫폼- 실시간 데이터 처리와 배치 데이터 처리 가능 2. EC2란?- 크기가 유연하게 변경되는 가상 서버 기능- 인스턴스가 실행되고 있을 때만 비용을 지불1) 비용 지불방법- 온디맨드: 시간당 정해진 금액을 지불(최소 60초), 개발 기간이 비교적 짧으며 소프트웨어 검증 및 테스트 단계에서 많이 사용- 리저브드: 1~3년 정도 싸게 임대, 하지만 인스턴스의 크기를 늘리거나 줄일 수 없다.- 스팟: 내가 제안한 경매 가격일 때만 실행, 하지만 인스턴스가 언제 켜지고 꺼질지 미리 알 수 없다. 2) EBS- EC2의 스토리지, 인스턴스가 종료되어도 EBS안에 들어있는 데이터는 여전히 존재한다- 가용영역: 메인 서버에서 만들어지는 일종의 복사본(백업용)- 타..
1. API란? - API는 Application Programming Interface의 약자로, 응용 프로그램 인터페이스입니다.- 서로 다른 소프트웨어나 프로그램이 서로 통신하고 데이터를 주고 받을 수 있도록 돕는 중간 다리 역할을 합니다.- API를 통해 직접 코드를 작성하지 않고도 필요한 기능을 다른 프로그램으로부터 가져와 사용할 수 있습니다. 2. Open API란?- 누구나 접근할 수 있도록 공개된 API를 말합니다.- 예시: 구글 맵스 API를 사용해 특정 위치 정보를 쉽게 가져와 앱에 연동- API 키를 발급받아 접근 권한을 얻고, 문서와 가이드를 통해 개발 방법을 지원 받습니다.- 새로운 앱이나 서비스가 기존 플랫폼의 기능을 더 쉽게 활용하도록 하여 빠른 서비스 확장과 혁신을 가능하게 합..
- Total
- Today
- Yesterday
- 고득점 Kit
- 티스토리챌린지
- 뉴스
- C언어
- 프로그래머스
- 오픽
- 습관
- 실기
- 30분
- 갓생
- 스크랩
- 빅데이터 분석기사
- Ai
- 영어회화
- llm
- 다이어트
- 운동
- 줄넘기
- 아침
- SQL
- 기초
- 아침운동
- Python
- 경제
- ChatGPT
- 미라클모닝
- 루틴
- opic
- IH
- 오블완
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |