Exemple de problématique corpus

Exemple de problématique corpus

Les constituants d`un corpus sont également connus, et les recherches sont exhaustives et impartiales. Les corpus normatifs, historiques, de surveillance et variétale ne sont pas les seuls types; l`échantillonnage démographique a été un peu utilisé, et il existe toutes sortes de corpus spécialisés. Ici, la principale différence est la raison de la collecte des textes, ce qui conduit à des priorités très différentes dans la collecte d`informations sur les différents textes. Cependant, nous nous efforçons, un corpus montrera occasionnellement des caractéristiques que nous soupçonnons de ne pas être caractéristiques de la langue à l`étude, ou ne parviennent pas à montrer des caractéristiques qui sont attendus. La classification la plus simple est binaire, de sorte que si un corpus de langue parlée est d`abord divisé en “privé” et “public”, alors chacun de ces types devront être représentés par une quantité suffisamment importante de texte pour que ses caractéristiques deviennent évidentes. Quel genre de documents écrivent-ils et lisent-ils, et quelle sorte de rencontres orales ont-ils? De nombreux projets de corpus sont si déterminés à ce sujet qu`ils effectuent une analyse sémantique de la langue sur des principes abstraits comme ceux de Dewey ou de Roget, puis recherchent des textes qui correspondent à leur cadre. L`opposé de la récurrence, unicité, ne peut pas être observé avec certitude dans un corpus, parce que, comme concédé près du début de ce chapitre, unicité dans un corpus n`implique pas l`unicité dans une langue. Dans ce contexte, nous devons également être conscients qu`une utilisation inprudente de l`intuition dans la sélection des textes pour un corpus porterait atteinte au premier mérite2. Il y a un avantage évident à obtenir la machine à faire autant de travail que possible-en particulier le gain dans l`objectivité qui en résulte-mais il exige beaucoup plus d`investissement à l`avance que le simple examen direct d`un petit échantillon. Tant de nos décisions sont subjectives qu`il est essentiel qu`un utilisateur puisse inspecter non seulement le contenu d`un corpus mais les raisons pour lesquelles le contenu est tel qu`il est. Par exemple, il est raisonnable de supposer qu`un corpus qui est spécialisé dans un certain domaine aura une plus grande concentration de vocabulaire qu`un corpus de grande envergure, et c`est certainement le cas d`un corpus de l`anglais de l`informatique (James et Al 1994).

Les échantillons de langue d`un corpus devraient, dans la mesure du possible, consister en des documents entiers ou des transcriptions d`événements vocaux complets, ou devraient se rapprocher le plus possible de cette cible. En plus de ces points pratiques, notre premier principe exclut le sujet comme source de critères de corpus. Permettez-moi de donner un exemple simple de ces préceptes en fonctionnement. La question de la taille est discutée plus tard, et l`exemple dans le paragraphe suivant n`est qu`illustratif. Maintenant qu`avec beaucoup de systèmes de gestion de corpus il est possible de «composer-un-corpus» à vos propres exigences, il est important de noter que le fardeau de démontrer la représentativité incombe à l`utilisateur de ces sélections et pas avec le constructeur de corpus original. Le principe de récurrence (voir ci-dessous) implique qu`une seule occurrence d`une caractéristique est peu susceptible d`être acceptée comme une caractéristique authentique d`une langue ou d`une variété; par conséquent, à moins que les textes partagent un grand nombre de caractéristiques, le corpus sera de peu d`utilité. Cependant, l`un des principaux objectifs de la création du corpus était de récupérer des preuves à l`appui de l`apprentissage de la langue anglaise, et les exigences de ce but banal se heurtaient à quelques-unes des principales caractéristiques de la fiction moderne. L`idée de maintenir un équilibre incite le constructeur de corpus à essayer d`aligner ces catégories, toutefois grossièrement, de sorte qu`il n`y ait pas trop de langage très formel ou très informel dans le corpus dans son ensemble.

No Comments

Sorry, the comment form is closed at this time.