Model Card

믿:음 2.0 Mini의 모델카드를 공개합니다.

Model Card Language Model 믿:음 2.0 믿:음 2.0 Mini

모델 개요

  • 모델명: 믿:음 2.0 Mini
  • 라이선스: MIT License

사용 목적

주요 용도

  • 텍스트 생성 모델로 문자열을 입력하여 문자열을 생성하는 용도입니다.
  • 다양한 사용자 요청에 대해 유용하고 안전한 답변할 수 있도록 학습된 모델입니다.

의도된 사용 사례

아래와 같은 다양한 자연어 태스크를 수행할 수 있고, 사용자 목적에 맞게 추가 파인튜닝하여 사용할 수 있습니다.

  • 분류: 감정 분류, 인과 관계 분류 등
  • 질의응답(QA): 언제/어디/누구/무엇 등 단문형 질의 응답, 설명 등 장문형 질의응답, 기계독해, 질문 생성 등
  • 요약: 신문 기사, 보도자료, 보고서, 회의록, 사설, 도서, 구조화된 요약 등
  • 생성: 연설문 작성, 신문 기사 제목 생성, 도서 생성, 광고 문구 작성 등
  • 변환: 문장 패러프레이징, 맞춤법 교정 등

부적절한 사용 사례

  • 비의도된 사용
    • 법률, 의료, 금융 등의 전문 영역에서 사람을 대신하여 전문적인 조언을 할 수 없고 이 경우 모델의 답변에 대해 반드시 추가 검토해야 합니다.
    • 한국어와 영어 외에 다른 언어 사용 시 부정확하고 부적절한 응답이 나올 수 있습니다.
  • 금지된 사용
    • 개인정보 요청, 유해한 컨텐츠 및 물품 제작 금지 등 금지된 사용 사례가 포함된 사용자 정책에 관련된 내용입니다.

모델 유형 및 아키텍쳐

모델 유형

  • 텍스트 입력, 텍스트 생성 모델

아키텍처 설명

  • 믿:음 2.0 Mini는 Transformer 구조를 활용한 Autoregressive Language Model

모델 크기(파라미터 수)

  • 모델 크기(파라미터 수): 2.3B
  • 최대 입출력 길이 지원 (Context-Length) : 32K

윤리적 고려사항 및 한계

윤리적 고려사항

  • 믿:음 학습 데이터에서 욕설, 비속어, 편견, 차별 등 비윤리적 표현을 제거하려고 노력하였습니다. 그럼에도 불구하고 위와 같은 바람직하지 않은 표현 또는 부정확한 사실이 생성될 가능성을 완전히 제거하지 못하였습니다.
  • 본 모델을 사용하기 전 이러한 한계를 인식하고 올바른 사용을 위해 필요한 조치를 취하는 것은 사용자의 책임이며, KT는 본 모델의 활용이 야기하는 위험이나 손해에 대해 책임을 지지 않습니다.

위험 완화 조치

  • 학습 데이터에서 개인정보 및 욕설, 비속어, 편견, 차별 등 비윤리적 표현을 최대한 제거하여 학습하였습니다.
  • Alignment 학습을 통해 사용자의 응답에 좀 더 안전하게 답변할 수 있도록 응답을 조정하였습니다.
  • 편향성을 지속적으로 모니터링하고 편향성 측정 항목 확대 및 필터링 적용을 확대하고 있습니다.
  • 오용 방지 신고 절차를 수행하고 사용자 정책을 통해 금지된 사용 정책을 수립하였습니다.

한계

  • 본 모델은 학습 데이터의 대부분이 한국어와 영어로 구성되어 있습니다. 그 외 언어에 대한 이해와 생성 기능은 제공하지 않습니다.
  • 본 모델은 다른 새로운 기술과 마찬가지로 잠재적 위험을 사전에 다 다룰 수 없으며, 경우에 따라 부정확하거나 편향적이고 불편한 응답을 생성할 수 있습니다. 따라서 배포 전 개발 목적에 맞게 추가적인 안전 테스트 및 튜닝을 수행해야 합니다.