쓰는 비격식체로서 문장에서 쓰는 격식 어체인 문어에 대응되는 개념을 가리킨다. 대화를 비롯해서 사적 독백, 강연, 강의, 연설, 토론, 회의에서는 구어체 말뭉치를 보통 쓰는 반면에, 신문, 잡지, 소설이나 학술적인 글들에서는 문어체 말뭉치를 쓴다. 격식적 구어: 회의, 토론, 강의, 방송 비격식적 구어: 가족 사이...
최근 형태로는 도서관의 장서카드함을 들 수 있다. 이 과정에서 앞 세대의 사전은 매우 중요한 참고서였으며 이는 지금도 마찬가지이다. 컴퓨터가 나온 이후 말뭉치언어학(corpus linguistics)이라는 분야가 형성될 정도로 사전 편찬의 방법론은 획기적으로 바뀌었다. 이 과정에서 규모의 경제가 발생하여 예전처럼 다수...
1종 데이터 이미지 86,000장 이상 농업 지식베이스 ’19년 한국어 2종 데이터 텍스트 1,600,000건, 이미지 6,000,000장 이상 한국어-영어 번역(병렬) 말뭉치, 한국어 글자체 이미지 영상이미지 4종 데이터 이미지 3,980,000장, 영상 100시간, 영상 200,000건 이상 한국형 사물 이미지, 멀티모달 영상, 사람동작 영상...
발견되는 드물게 전체 단어일 수 있다. 또는 음성 녹음 데이터 세트에서 추출된 인접 음소 또는 게놈에서 추출된 인접 염기쌍이다. 이는 텍스트 말뭉치 또는 음성 말뭉치에서 수집된다. 라틴어 숫자 접두사가 사용되는 경우 크기 1의 n-그램을 "유니그램"이라고 하고 크기 2를 "바이그램"(또는 덜 일반적으로 "디그램...
한다. 2006년 언어 전문가의 설문조사에서, 874개의 회신 중 82.5%가 번역 메모리를 사용하고 있음을 확인하였다. 번역메모리의 쓰임은 기술적인 용어와 간단한 문장 구조, 컴퓨터 기술, 컨텐츠의 반복성을 특징으로 하는 텍스트 형식과 상관관계가 있다.Elina Lagoudaki , p.16 웹 인용 번역 말뭉치 병렬말뭉치 전거 통제
법칙을 발견하였다. 또한 독일의 물리학자 펠릭스 아워바흐(Felix Auerbach)도 1913년에 이 법칙에 대해 언급하였다. 지프의 법칙에 따르면 어떠한 자연어 말뭉치 표현에 나타나는 단어들을 그 사용 빈도가 높은 순서대로 나열하였을 때, 모든 단어의 사용 빈도는 해당 단어의 순위에 반비례한다. 따라서 가장 사용 빈도...
구조로 배열된 구문이 다른 의미역을 지닐 수 있다는 데서 착안한다. 컴퓨터 과학에서는 자연 언어 처리 분야에 많이 쓰인다. 특히, 기계 번역이나 질의 자동화의 결과를 자연어와 유사하게 후처리할 때 많이 쓰인다. PropBank, FramNet 등은 다양한 언어 말뭉치에 의미역 주석이 달린 자료를 제공한다. 말뭉치 주석 토막글
경우에 응용된다. 대표적인 알고리즘은 HMM(Hidden Markov Model)으로서, 다양한 화자들이 발성한 음성들을 통계적으로 모델링하여 음향모델을 구성하며 말뭉치 수집을 통하여 언어모델을 구성한다. 미리 기록해 둔 음성 패턴과 비교해 개인 인증 등의 용도로 사용하기도 하는데 이를 화자 인식이라고 한다. 화자 인식...
최초의 자동화 정보 검색 시스템은 1950~1960년대에 도입되었다. 1970년까지 수 천 개 문서의 모음인 크랜필드 콜렉션(Cranfield collection)과 같은 소규모 말뭉치를 대상으로 하는 몇몇 방법들이 학계에 소개되었다. 록히드 다이얼로그 시스템(Lockheed Dialog system)과 같은 대규모 검색 시스템은 1970년대 초부터...
성격이 강해 응용언어학으로 인식되기도 한다. 비교언어학 (또는 역사언어학, 역사비교언어학) 언어유형학 (언어유형론, 또는 짧게 유형론) 전산언어학 말뭉치언어학 (또는 코퍼스언어학) 법언어학 또한 언어의 어떤 측면을 대상으로 연구하는 것이 아니라 언어학이라는 학문을 대상으로 연구하는 분야도 존재한다...
코먼웰스 뱅크(Commonwealth Bank of Australia) 중국 야구 협회(Chinese Baseball Association) 중국 농구 협회(Chinese Basketball Association) 센트럴 농구 협회(Central Basketball Association) 컨티넨탈 농구 협회(Continental Basketball Association) 코르도바(Cordoba) 말뭉치 기반 접근(Corpus-based...