LLM ChatGPT API 연동을 위한 금액 계산 및 개념 공부

카테고리 없음

LLM ChatGPT API 연동을 위한 금액 계산 및 개념 공부

한둥둥 2025. 4. 29. 16:38

GPT 결제 관련

항목 ChatGPT Team구독 GPT API 연동 ChatGPT 개인 구독

비용 구조	한사람 당 $25/월(Team 기준)(34,000원)	사용량 기반 과금(token 수에 따라)	인당 20$/월 (27,000원)
소규모 사용 시	가격이 있음	훨씬 저렴함 , 서버 구축 및 초기 세팅 비용 + 지속적인 관리 비용이 있다.	TEAM저렴 및 개인으로 사용
사용량 비교	단순한 고정비 관리	트래픽 많으면 비용증가 위험	단순한 고정비 관리
커스터마이징 유연성	제한적	매우 높음(프롬프트/세션 설계 가능)	제한적
사내 데이터 연동	X 불가	가능 (RAG, DB연동 등)	X 불가
GPT 모델 및 성능	GPT-4o	커스텀하여 사용 가능	GPT-4.5

ChatGPT Team 기준 한달 $25 * 6 = $150달러

ChatGPT 개인 구독 한달 $20 * 6 = $120달러

GPT API 연동 시,

1M 단위로 비용 계산, 1M tokens 100만개 단위 (약 75만 단어 수준)

토큰 사용 수 비용 + AWS Cloud Instance를 사용한다는 기준으로 평균 월 $30 ~ $40달러 비용 소모 + 관리 비용

평균 1,000 tokens 약 700~750단어 정도 예상

질문 한 번 + 답변 한 번 = 평균 1,000 ~ 2,000 tokens 사용

하루에 약 100회 대화 기준 한달 $20 ~ $40달러 예상

하루에 약 500회 대화 기준 한달 $100달러 이상

$1 = 1443.60원

LLM API 비용

비교할 대상은 시장에서 가장 인기 있고 널리 사용되는 ChatGPT, 기능적 우수성을 제공하는 Gemini, 혁신적인 Claude, 한국에서 개발한 HyperCLOVA

제공자 모델 Input / 1M Tokens Output / IM Tokens

제공자	모델	Input / 1M Tokens	Output / IM Tokens
Open AI	GPT-4o mini	$0.150 / 1M tokens Cached Input : $0.075 / 1M tokens	$0.600 / 1M tokens
	GPT-4o	$2.50 / 1M tokens Cached input: $1.25 / 1M tokens	$10.00 / 1M tokens
	GPT-4.5	$75.00 / 1M tokens Cached Input: $37.50 / 1M tokens	$150.00 / 1M tokens
Google	Google Gemini 1.5 Pro	1.25$ / 1M tokens	3.00$ / 1M tokens
	Google Gemini 2.5 Flash	0.15 / 1M tokens	$0.60 / 1M tokens
	Google Gemini 2.5 Pro	1.25$ / 1M tokens	$10.00 / 1M tokens
	Google Gemini 2.0 Flash	0.10$ / 1M tokens	$0.40 / 1M tokens
Claude	Claude 3.7 Sonnet	3.00$ / 1M tokens	$15.00 / 1M tokens
	Claude 3.5 Sonnet	3.00$ / 1M tokens	$15.00 / 1M tokens
	Claude 3.5 Haiku	0.80$ / 1M tokens	$4.00 / 1M tokens
	Claude 3 Opus	15.00$/ 1M tokens	$75.00 / 1M tokens

추후 사내 특수 도메인 LLM API 구축 방법

방법	Python 구축 후, Spring에서 외부 API로 호출하는 방식	Spring AI로 LLM 연동하는 방법
장점	- 해당 방식으로 구현한 프로젝트가 많으며 Python으로 llm 연동한 자료가 굉장히 많다.	- Spring AI를 통해서 기존의 Java/Kotlin 사용하는 언어를 통해서 구축할 수 있다.
단점	- 관리할 포인트가 하나 더 생긴다.	- 자료가 없으 Spring AI 출시한지 얼마안됨

Fine Tunning(미세 조정)

*Fine Tunning(미세조정)*은 이미 학습된 대형 언어 모델을 특정한 목적이나 데이터셋에 맞게 추가로 학습시키는 과정입니다.

Fine Tuning의 과정

기존 모델 선택: 우선, 기본적으로 언어를 이해하고 생성할 수 있는 대형 언어 모델을 선택한다. 이 모델은 이미 방대한 양의 데이터를 학습하여 기본적인 언어 능력을 갖추고 있다.
특정 데이터셋 준비 : Fine Tuning을 위해 필요한 특정한 도메인이나 주제에 대한 데이터셋을 준비합니다. 예를 들어, 의료 관련 질문 답변 시, 의료 논문이나 문서 사용합니다.
추가 학습 진행 : 준비된 데이터셋을 사용하여 모델을 추가로 학습시킵니다. 이 과정에서 모델은 기존 지식을 유지하면서 새로운 도메인 지식을 습득하게 된다.
모델 검증 및 조정 : Fine Tuning 완료 된 후, 모델이 실제로 원하는 대로 작동하는지 검증하고 필요에 따라 조정한다.

Fine-tuning 주요 이점은 모델이 특정 도메인에서 더 높은 정확도와 유용성을 가지게 된다는 점이다. ex) 의료 기록 분석을 위한 모델은 일반 대화 모델보다 더 정밀한 결과를 제공할 수 있습니다. 따라서 LLM 모델의 답변을 특정 형식에 맞춰서 나오도록 하고자 할 때, 특정 데이터를 좀 더 명확하게 학습시키고 싶을 때 사용하면 효과적인 기법이다.

Fine-tuning 기법

Fine-tuning 기법전이 학습(Transfer Learning): 일반적인 대규모 데이터셋에서 미리 학습된 모델을 특정 작업에 맞게 추가 학습한다. 사전 학습된 모델의 지식을 활용하여 더 적은 데이터와 리소스로도 높은 성능을 얻을 수 있다.
데이터 증강(Data Augmentation): 학습 데이터의 다양성을 높이기 위해 원본 데이터를 변형하거나 추가 데이터를 생성한다. 모델이 다양한 상황을 학습할 수 있도록 도와주어 일반화 성능을 높인다.
지식 증류(Knowledge Distillation): 큰 모델(교사 모델)의 지식을 작은 모델(학생 모델)로 전달하여 작은 모델의 성능을 향상시킨다. 계산 자원을 절약하면서도 높은 성능을 유지할 수 있다.
하이퍼파라미터 튜닝(Hyperparameter Tuning): 학습 과정에서 사용되는 하이퍼파라미터(예: 학습률, 배치 크기 등)를 최적화한다. 모델의 성능을 극대화할 수 있다.
LoRA (Low-Rank Adaptaion) : 최근 가장 많이 사용하는 기법으로 기존의 모델 파라미터를 고정하고, 저랭크 업데이트 매트릭스만 학습하는 기법이다. 모델 파라미터의 랭크를 낮춰 파라미터 수를 줄이는 동시에 모델의 성능을 유지하거나 개선할 수 있도록 한다. 파라미터 수를 줄이면서도 모델의 성능을 유지할 수 있기에 학습 시간이 단축되고, 계산 자원도 절약된다. 그리고 모델 크기를 줄이면서도 성능 저하를 최소화할 수 있다.
DoRA (Decoupled Low-Rank Adaptation) : LoRA 기법의 한 변형으로, 모델의 각 레이어를 독립적으로 저랭크 매트릭스를 사용하여 조정하는 방법이다. 모델의 각 레이어에 대해 별도로 저랭크 매트릭스를 적용한다. 이를 통해 모델의 특정 레이어에 대한 조정을 세밀하게 할 수 있다. 모델의 성능을 보다 정밀하게 최적화할 수 있으며, 특정 작업에 맞춘 조정이 가능하다.
QLoRA (Quantized Low-Rank Adaptation) : Low-Rank Adaptation에 양자화를 결합한 방법으로, 모델의 파라미터를 양자화하여 저장 공간과 계산 자원을 더욱 절약하는 기법이다. 모델 파라미터를 저랭크 매트릭스를 사용해 조정한 후, 이를 양자화하여 저장하여 이 통해 파라미터 수를 줄이면서도 모델의 성능을 크게 손상시키지 않는다. 저장 공간과 계산 자원이 대폭 절약하면서도 높은 성능을 유지할 수 있다.

Fine-tuning 문제점

시간 및 비용 : Fine-tuning은 모델을 추가로 학습시키기 때문에 시간이 많이 걸리고, 계산 지원이 많이 필요할 수 있다. 대규모 모델을 Fine-tuning하려면 고성능 GPU나 TPU가 필요하며, 이는 비용이 많이 든다.
복잡성 증가 : Fine-tuning 과정은 다양한 하이퍼파라미터 조정과 데이터 준비가 필요하기 때문에 복잡성이 증가한다. 적절한 하이퍼파라미터를 찾기 위해 여러 실험을 수행해야 하며, 이는 시간과 노력이 많이 소요된다.

출처:

https://marcus-story.tistory.com/29

[Marcus' Stroy:티스토리]

RAG(Retrieval-Augmented Generation)

*RAG(Retrieval-Augmented Generation)*는 모델이 질문에 답변하기 위해 단순히 학습된 지식만 사용하는 것이 아니라, 외부 데이터베이스나 검색 시스템을 활용하여 필요한 정보를 검색한 후 그 정보를 바탕으로 답변을 생성하는 방법입니다.

RAG (Retrieval-Augmented Generation) 과정

질문 입력: 사용자가 모델에 질문을 입력합니다.
정보 검색 (Retrieval 단계)

모델은 질문의 핵심 의미를 이해하고, 외부 데이터베이스, 검색 인덱스(예: 벡터DB, 문서 저장소)에서 관련 정보를 검색합니다. 검색 방법은 키워드 매칭, 벡터 기반 유사도 검색(Dense Retrieval) 등 다양할 수 있습니다.

정보 통합 및 답변 생성(Generation 단계)

검색된 문서나 정보를 프롬프트 삽입하여, 모델이 해당 정보를 기반해 답변을 생성한다. 이 과정에서 모델은 검색 결과를 단순 복붙하는 것이 아니라, 종합적 요약, 해석, 재구성하여 자연스러운 답변을 만들어냅니다.

최종 답변 반환

사용자는 검색된 정보를 기반으로 생성된 고품질의 답변을 받게 된다.
답변에는 최신 정보 , 회사 내부 문서 내용, 사내 규정등이 반영될 수 있어, 일반 모델 답변보다 훨씬 정확하고 실용적인 결과를 제공한다.