Model Card

믿:음 2.0 Base의 모델카드를 공개합니다.

Model Card Language Model 믿:음 2.0 믿:음 2.0 Base

모델 개요

  • 모델명: 믿:음 2.0 Base
  • 라이센스: MIT License

사용 목적

주요 용도

  • 텍스트 생성 모델로 문자열을 입력하여 문자열을 생성하는 용도입니다.
  • 다양한 사용자 요청에 대해 유용하고 안전한 답변할 수 있도록 학습된 모델입니다.

의도된 사용 사례

아래와 같은 다양한 자연어 태스크를 수행할 수 있고, 사용자 목적에 맞게 추가 파인튜닝하여 사용할 수 있습니다.

  • 분류: 감정 분류, 인과 관계 분류 등
  • 질의응답(QA): 언제/어디/누구/무엇 등 단문형 질의 응답, 설명 등 장문형 질의응답, 기계독해, 질문 생성 등
  • 요약: 신문 기사, 보도자료, 보고서, 회의록, 사설, 도서, 구조화된 요약 등
  • 생성: 연설문 작성, 신문 기사 제목 생성, 도서 생성, 광고 문구 작성 등
  • 변환: 문장 패러프레이징, 맞춤법 교정 등

부적절한 사용 사례

  • 비의도된 사용
    • 법률, 의료, 금융 등의 전문 영역에서 사람을 대신하여 전문적인 조언을 할 수 없고 이 경우 모델의 답변에 대해 반드시 추가 검토해야 합니다.
    • 한국어와 영어 외에 다른 언어 사용시 부정확하고 부적절한 응답이 나올 수 있습니다.
  • 금지된 사용
    • 개인정보 요청, 유해한 컨텐츠 및 물품 제작 금지 등 금지된 사용 사례가 포함된 사용자 정책에 관련된 내용입니다.

모델 유형 및 아키텍쳐

모델 유형

  • 텍스트 입력, 텍스트 생성 모델

아키텍처

  • 믿:음 2.0 Base는 Transformer 구조를 활용한 Autoregressive Language Model

모델 크기(파라미터 수)

  • 모델 크기(파라미터 수): 11.5B
  • 최대 입출력 길이 지원 (Context-Length) : 32K

학습 데이터

한국어와 영어 데이터를 이용하여 사전 학습하였습니다. 미세 조정 학습을 위해서 공개 데이터를 이용하였으며 이를 가공하거나 다시 정제하는 과정을 거쳤습니다. 학습에 필요한 데이터는 모두 적법한 사용 허가 조건 하에 확보하였습니다. AI-HUB (https://www.aihub.or.kr/) 의 말뭉치 데이터와 국립국어원 모두의 말뭉치 데이터 (https://corpus.korean.go.kr/) 를 사전 학습 단계에서 이용하였습니다. KT가 보유한 고객 데이터는 학습에 이용하지 않았습니다.

윤리적 고려사항 및 한계

윤리적 고려사항

  • 믿:음 학습 데이터에서 욕설, 비속어, 편견, 차별 등 비윤리적 표현을 제거하려고 노력하였습니다. 그럼에도 불구하고 위와 같은 바람직하지 않은 표현 또는 부정확한 사실이 생성될 가능성을 완전히 제거하지 못하였습니다.
  • 본 모델을 사용하기 전 이러한 한계를 인식하고 올바른 사용을 위해 필요한 조치를 취하는 것은 사용자의 책임이며, KT는 본 모델의 활용이 야기하는 위험이나 손해에 대해 책임을 지지 않습니다.

위험 완화 조치

  • 학습 데이터에서 개인정보 및 욕설, 비속어, 편견, 차별 등 비윤리적 표현을 최대한 제거하여 학습하였습니다.
  • Alignment 학습을 통해 사용자의 응답에 좀 더 안전하게 답변할 수 있도록 응답을 조정하였습니다.
  • 편향성을 지속적으로 모니터링하고 편향성 측정 항목 확대 및 필터링 적용을 확대하고 있습니다.
  • 오용 방지 신고 절차를 수행하고 사용자 정책을 통해 금지된 사용 정책을 수립하였습니다.

한계

  • 본 모델은 학습 데이터의 대부분이 한국어와 영어로 구성되어 있습니다. 그 외 언어에 대한 이해와 생성 기능은 제공하지 않습니다.
  • 본 모델은 다른 새로운 기술과 마찬가지로 잠재적 위험을 사전에 다 다룰 수 없으며, 경우에 따라 부정확하거나 편향적이고 불편한 응답을 생성할 수 있습니다. 따라서 배포 전 개발 목적에 맞게 추가적인 안전 테스트 및 튜닝을 수행해야 합니다.