Model Card

SOTA K built on GPT-4o의 모델카드를 공개합니다.

Model Card Language Model GPT-4o

모델 개요

  • 모델명: SOTA K built on GPT-4o
  • 모델 정의: KT와 Microsoft의 협업을 통해 글로벌 최고 성능의 GPT-4o에서 KT의 Sovereign 데이터를 학습하여 한국어 이해도 및 한국어, 한국 역사, 한국 문화, 한국 정서 등 한국 지식을 확장한 특화 모델

사용 목적

주요 용도

  • 텍스트 생성 모델로 문자열을 입력하여 문자열을 생성하는 용도입니다.
  • 다양한 사용자 요청에 대해 유용하고 안전한 답변할 수 있도록 학습된 모델입니다

의도된 사용 사례

자연어 태스크 수행 기능

주요 수행 태스크 수행 태스크 상세
질의 응답(QA) 일반 질의 및 문맥 기반 질의 응답
산수, 수학 문제 풀이, 계산 프로세스 설명
법률, 의료 및 특정 전문 영역 질의 응답
맞춤법, 신조어, 한국 사회ㆍ문화 및 경제 현상에 대한 질의 응답
추천 음악, 전자기기, 영화 등 일상 추천
국내 맛집, 여행 코스 등 한국인의 취향과 맥락을 반영한 추천
생성 노래 가사, 시 등 창의적 생성, 특정 업무에 맞춘 글 예시 생성
키워드 기반 문서 생성, 내용 지시에 따른 포맷 준수 보고서 작성
번역 다국어 문서 대상 번역 Text
원문-번역문을 문장 단위로 비교
다양한 문체 선택(경어체, 간결체 등)
요약 한줄 요약 : 문서 전체 핵심 문장 1~2줄
단락/섹션 요약 : 목차 기준 구분된 핵심 요약
중요 키워드/개체명/회사명/날짜 등 자동 하이라이트
요약 스타일 설정(결론-요약-근거 형식, 목표-분석-세부 구조)
회의록, 보고서 등 문서 요약, 논문 리뷰 등
비교 보고서 및 문서 버전 비교 : 문장 단위 추가/삭제/변경 표시
문서 변경 내용 요약 : 중요한 변화(주제ㆍ숫자ㆍ결론) 위주 요약
정기 보고서 리포트 생성 변화 관점, 문서 히스토리, 수정내용 확인
분류 감정 분류, 인과 관계 분류 등

※ 사용자 목적에 따라 파인튜닝하여 사용 가능

부적절한 사용 사례

  • 비의도된 사용
    • 법률, 의료, 금융 등의 전문 영역에서 사람을 대신하여 전문적인 조언을 할 수 없고 이 경우 모델의 답변에 대해 반드시 추가 검토해야 합니다.
  • 금지된 사용
    • 개인정보 요청, 유해한 컨텐츠 및 물품 제작 금지 등 금지된 사용 사례가 포함된 사용자 정책에 관련된 내용입니다.

모델 유형 및 아키텍쳐

모델 유형

  • 텍스트 입력, 텍스트 생성 모델

아키텍처

  • GPT-4o 모델 기반 Autoregressive Language Model

모델 크기(파라미터 수)

  • 모델 크기(파라미터 수): 비공개
  • 최대 입출력 길이 지원 (Context-Length) : 128K

학습 데이터

인문, 역사, 정치, 경제, 법률, 사회, 교육, 자연과학(지리), 문화 등 여러 한국적 도메인의 학습 데이터로 지식을 확장하였습니다. 또한, 한국어 지시 이행 능력 및 자연스러운 번역, 한국적 사설 작성과 같은 특화 능력을 위해 라벨링된 고품질의 데이터 셋으로 지도학습/강화 학습을 진행하였습니다. KT가 보유한 고객 데이터는 학습에 이용하지 않았습니다.

윤리적 고려사항 및 한계

윤리적 고려사항

  • 학습 데이터에서 욕설, 비속어, 편견, 차별 등 비윤리적 표현을 제거하려고 노력하였습니다. 그럼에도 불구하고 위와 같은 바람직하지 않은 표현 또는 부정확한 사실이 생성될 가능성을 완전히 제거하지 못하였습니다.
  • 본 모델을 사용하기 전 이러한 한계를 인식하고 올바른 사용을 위해 필요한 조치를 취하는 것은 사용자의 책임이며, KT는 본 모델의 활용이 야기하는 위험이나 손해에 대해 책임을 지지 않습니다.

위험 완화 조치

  • 학습 데이터에서 개인정보 및 욕설, 비속어, 편견, 차별 등 비윤리적 표현을 최대한 제거하여 학습하였습니다.
  • Alignment 학습을 통해 사용자의 응답에 좀 더 안전하게 답변할 수 있도록 응답을 조정하였습니다.
  • 편향성을 지속적으로 모니터링하고 편향성 측정 항목 확대 및 필터링 적용을 확대하고 있습니다.
  • 오용 방지 신고 절차를 수행하고 사용자 정책을 통해 금지된 사용 정책을 수립하였습니다.

한계

  • 본 모델은 다른 새로운 기술과 마찬가지로 잠재적 위험을 사전에 다 다룰 수 없으며, 경우에 따라 부정확하거나 편향적이고 불편한 응답을 생성할 수 있습니다. 따라서 배포 전 개발 목적에 맞게 추가적인 안전 테스트 및 튜닝을 수행해야 합니다.