Corpus lingüístico

Corpus lingüístico
De Wikipedia, la enciclopedia libre
Un Corpus lingüístico es un conjunto, normalmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (típicamente), o muestras orales (normalmente transcritas).
Se llama lingüística de corpus a la subdisciplina de la lingüística que estudia la lengua a través de estas muestras. Este tipo de aproximación choca con el enfoque chomskiano que tiende a estudiar la lengua a través de la intuición lingüística del hablante.
Esta subdisciplina, dado el volumen de datos que se maneja, normalmente se asocia con la lingüística computacional, según esta última se acerca a las aplicaciones de Procesamiento de lenguaje natural.
Esta disciplina se inició en 1967 cuando Henry Kucera y Nelson Francis publicaron el clásico Computational Analysis of Present-Day American English, basándose en el corpus Brown, una compilación de inglés estadounidense de aproximadamente un millón de palabras seleccionadas de una amplia variedad de fuentes.

