AI/MLOps
[MLOps] 학습이 끝난 ML 모델을 저장하는 방법
brave_sol
2024. 12. 2. 17:19
1. [머신러닝 모델] Scikit-learn과 같은 라이브러리로 만든 모델을 저장할 경우
1) pickle
- python의 표준 라이브러리로, 별도 설치 없이 사용 가능하며, 간단하다.
- 모든 python 객체(리스트, 딕셔너리, 클래스 인스턴스, 함수 등)을 저장하고 불러올 수 있다.
import pickle
from sklearn.ensemble import RandomForestClassifier
# 모델 생성 및 학습
model = RandomForestClassifier(n_estimators=100)
model.fit(X, y)
# 모델 저장
with open('model.pkl', 'wb') as f:
pickle.dump(model, f)
# 모델 불러오기
with open('model.pkl', 'rb') as f:
loaded_model = pickle.load(f)
loaded_model.predict([[-1.39710,3.31910,-1.392700,-1.99480 ]])
2) joblib
- 가장 자주 사용되는 방법으로, 특히 Scikit-learn 모델을 저장하는데 적합하다.
- pickle 기반이지만 대규모 데이터를 더 효율적으로 처리한다.
import joblib
# 모델 저장
joblib.dump(model, 'model.joblib')
# 모델 불러오기
loaded_model = joblib.load('model.joblib')
(주의)
- pickle과 joblib은 은 데이터를 로드하면서 임의의 python 코드를 실행할 수 있으므로, 신뢰할 수 없는 pickle파일은 열면 안된다.
(대안)
- 모델 자체가 아니라, 메타데이터나 간단한 구조를 저장할때는 JSON 구조 사용
2. [딥러닝] TensorFlow, PyTorch 등의 프레임워크를 사용하는 경우
1) TensorFlow, Keras: HDF5 또는 savedModel사용
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
# 모델 생성
model = Sequential([
Dense(10, input_shape=(5,), activation='relu'),
Dense(1, activation='sigmoid')
])
#### 방법1 HDF5로 저장
model.save('model.h5')
# 모델 불러오기
from tensorflow.keras.models import load_model
loaded_model = load_model('model.h5')
#### 방법2 SavedModel로 저장
model.save('model_saved')
# SavedModel 불러오기
loaded_model = load_model('model_saved')
2) PyTorch: .pth파일
- Pytorch 모델을 저장할 때는 전체 모델 또는 가중치를 저장하는 방식이 일반적이다.
import torch
import torch.nn as nn
# 간단한 모델 생성
model = nn.Linear(10, 1)
#### 방법1. 가중치저장
torch.save(model.state_dict(), 'model_weights.pth')
# 가중치 불러오기
model.load_state_dict(torch.load('model_weights.pth'))
model.eval()
#### 방법2. 전체 모델 저장
torch.save(model, 'model.pth')
# 전체 모델 불러오기
model = torch.load('model.pth')
model.eval()
반응형