LA MODÉLISATION DE L'ANALYSE DOCUMENTAIRE: À LA CONVERGENCE DE LA SÉMIOTIQUE, DE LA PSYCHOLOGIE COGNITIVE ET DE L'INTELLIGENCE ARTIFICIELLE

Suzanne Bertrand-Gastaldy et Diane Lanteigne
École de bibliothéconomie et des sciences de l'information
Université de Montréal
CP 6128, succ. Centre Ville
Montréal, Qué. H3C 3J7.

Luc Giroux et Claire David
Département de Communication
Université de Montréal
CP 6128, succ. Centre Ville
Montréal, Qué. H3C 3J7.

Résumé

La sémiotique textuelle et la psychologie cognitive sont mises à contribution pour modéliser différentes opérations d'analyse documentaire. On expose les éléments du modèle théorique et la complémentarité des approches. L'attribution de propriétés relevant de systèmes sémiotiques divers sur les textes primaires et secondaires permet de retrouver les unités et certaines des caractéristiques privilégiées de façon générale ou par chaque individu. Les enquêtes cognitives auprès des experts corroborent ou complétent l'analyse des corpus. Quelques exemples de résultats obtenus par l'analyse statistico-linguistique lors de deux expérimentations illustrent l'utilité de la méthodologie, notamment pour la conception de systèmes experts d'aide à la lecture.

Abstract

Textual semiotics and cognitive psychology are advocated to model several types of documentary analysis. A theoretical model is proposed which combines elements from the two disciplines. Thanks to the addition of values of properties pertaining to different semiotic systems to the primary and secondary texts, one can retrieve the units and the characteristics valued by a group of indexers or by one individual. The cognitive studies of the experts confirm or complete the textual analysis. Examples from the findings obtained by the statistico-linguistic analysis of two corpora illustrate the usefulness of the methodology, especially for the conception of expert systems to assist whatever kind of reading.

INTRODUCTION

À l'heure où le nombre de textes intégraux disponibles sous forme électronique connaît une croissance fulgurante, on remet en question le bien-fondé d'une analyse humaine pénalisante en temps et en argent, sinon en qualité, et l'on propose toutes sortes d'analyses automatiques qui vont de la simple extraction des chaînes de caractères aux systèmes experts les plus complexes. Parallèlement, les progrès des connaissances en psychologie cognitive, en linguistique phrastique et textuelle, en sémantique et en intelligence artificielle incitent à observer sous ces divers éclairages les tâches d'analyse dont il faut tenter soit de modéliser les processus, selon la conception maximaliste, soit de reproduire les résultats, selon la conception minimaliste. Des travaux communs avec des spécialistes de ces différentes disciplines nous ont conduits a l'élaboration de projets de recherche appuyés sur un modèle théorique qui se consolide au fur et à mesure des expérimentations sur des corpus réels avec des analystes réels dans des contextes diversifiés (Footnote: Les expérimentations ont été menées avec deux équipes différentes. Avec François Daoust, Gracia Pagola et Louis-Claude Paquin, nous avons été subventionnés par le CEFRIO (Centre francophone de recherche en informatisation des organisations), SOQUIJ (Société québécoise d'information juridique), le ministère des Communications du Québec, avec le soutien de l'Université de Montréal et le le Centre de recherche en cognition et information ATO.CI de l'Université du Québec à Montréal. Avec Luc Giroux, nous bénéficions actuellement d'une subvention CRSH.). Nous voulons découvrir - et expliquer - les propriétés privilégiées par les différentes lectures des textes et, pour une même tâche d'indexation, par différents indexeurs.

Dans ce qui suit, nous tâcherons de montrer la complémentarité d'une part des éléments théoriques empruntés à plusieurs des disciplines énumérées, d'autre part des méthodologies adoptées pour les expérimentations, puis nous donnerons un aperçu des résultats de deux projets concrets pour conclure sur les perspectives d'utilisation de notre approche.

ÉLÉMENTS DU MODÈLE THÉORIQUE

De nombreux travaux ont mis en évidence le rôle actif de reconstruction du sens par le lecteur (Eco, 1985; Pennac, 1992). Le modèle que nous essayons de construire repose sur les prémisses suivantes:

1- Le texte est un entrelacs de multiples systèmes sémiotiques: éditorial (typographie, mise en page), lexical, syntaxique, sémantique, représentationnel, communicationnel, argumentatif, intertextuel, etc. Ainsi, ce ne sont pas les chaînes de caractères -les «porteurs» - qui sont signifiantes, mais leurs propriétés relevant de chacun des systèmes et interprétées par un agent cognitif (Eco, 1988; Deledalle, 1979). Toute tentative d'explicitation de la structuration du texte doit donc prendre en compte l'existence de ces différents systèmes, des différentes unités qui les constituent et des caractéristiques qui leur sont rattachées (Halliday, 1985; McKenzie, 1991; Meunier, 1993; Meunier et al., 1994; Rastier, 1989).

2- La lecture constitue un acte d'interprétation sensible à certains de ces systèmes selon le projet ou le point de vue (Iser, 1985), ce qui d'ailleurs contribue à rendre les unités textuelles extrêmement insaisisables (Weaver, 1985). Parce que la lecture est un acte individuel, elle diffère forcément en fonction des connaissances, des préoccupations, des intérêts, des systèmes de valeur et des buts des lecteurs, mais parce que la lecture est aussi un acte social, certains invariants peuvent être observés chez des individus de même culture - de même culture organisationnelle, entre autres.

3- Les lectures documentaires effectuées en vue de la classification, de l'indexation, de la condensation constituent des cas particuliers de lecture professionnelle (Hochon et Évrard, 1994), tout comme la lecture analyse de contenu, la lecture orientée vers le dépouillement terminologique, la lecture historique ou la lecture littéraire, etc. par opposition à la lecture-loisir qui privilégie le plaisir. Le contexte de travail détermine certains parcours et ceci d'autant plus fortement que la tâche est codifiée, qu'elle est le résultat d'un mandat institutionnel et que le but à atteindre est clairement identifié. Toutes les lectures combinent une approche perceptive et une approche conceptuelle dont l'importance respective varie selon le type de lecture effectuée - lecture orientée vers la correction typographique, l'étude stylistique ou l'analyse approfondie du contenu, comme les arguments en faveur d'une thèse ou l'étude des marqueurs d'un jugement de valeur ou d'un souci prévisionnel - et ceci est vrai des différentes lectures documentaires (Endres-Niggemeyer 1990; Farrow, 1991). Elles mettent en jeu diverses opérations cognitives de sélection, rejet, généralisation (Van Dijk, 1977), stratégies de confirmation et contrôle, etc. (David, 1990) portant sur des indices ou configurations d'indices dont la pertinence varie en fonction du but à atteindre. À chaque tâche d'analyse correspond donc un parcours particulier du texte. La décision d'inclure un document dans une base de données - ou de le rejeter - n'exige pas la prise en compte du même nombre ni des mêmes types d'indices que l'opération d'indexation. La rédaction d'un résumé requiert une prise de connaissance plus approfondie du contenu textuel que l'attribution d'une rubrique de classification, mais exige un examen moins attentif cependant que la comparaison des thèses défendues par plusieurs auteurs, par exemple.

4- Certaines lectures laissent des traces comme le surlignage (Le Roux et Monteil, 1993) et peuvent donner naissance à de nouveaux «textes¼: annotations marginales, rubriques de classification, résumé, indexation. Étant donné leurs conditions de production, ces textes seconds sont en position d'intertextualité avec les textes de départ. Il en est ainsi des mots-clés choisis avec le texte indexé et, le cas échéant, avec le résumé de même qu'avec l'outil documentaire utilisé pour convertir le vocabulaire libre en vocabulaire contrôlé. C'est ce qu'ont affirmé tour à tour Hutchins (1975), Beacco et Darot (1984) et Begthol (1986).

5- La confrontation du texte de départ et des produits issus des différentes lectures permet un examen des éléments textuels jugés assez importants pour être retenus par rapport à ceux qui n'ont pas été sélectionnés lors de l'opération- filtre que constitue l'analyse. L'examen est d'autant plus fécond que texte de départ et textes d'arrivée peuvent être observés non pas seulement au niveau des signifiants mais des propriétés relevant des différents systèmes à l'oeuvre.

MÉTHODOLOGIE EMPLOYÉE DANS LES EXPÉRIMENTATIONS

La vérification de la validité de notre modèle s'appuie sur la complémentarité des approches cognitives et sémio-textuelles.

Analyses statistico-linguistiques

Les corpus

Nous comparons, sous divers aspects, un corpus de textes sources et de textes-cibles comme les textes primaires et l'indice (ou les indices) de classification attribué ou bien les résumés et l'indexation auxquels ils ont donné lieu. Il nous faut donc disposer de versions électroniques de ces corpus ainsi que des outils documentaires qui ont servi à les analyser: plan de classification et thésaurus.

Pour SOQUIJ (Société québécoise d'information juridique), nous avons étudié les tâches suivantes: élimination à la source de certains jugements; détermination du (ou des) domaine(s) du droit et, le cas échéant, du sous-domaine, selon un plan de classification préétabli) auquel chaque décision retenue appartient; prise de connaissance du contenu des textes en vue de la rédaction d'un résumé informatif; sélection de termes d'indexation à partir du résumé rédigé par les conseillers juridiques. Nous nous sommes appuyés sur un corpus de 565 textes intégraux, 1057 notices analytiques, un thésaurus de 1325 descripteurs et non-descripteurs et un plan de classification de 57 domaines principaux de droit.

Dans la base de données Envirodoq, produite par le ministère de l'Environnement et de la Faune du Québec, nous analysons surtout les différences individuelles entre les indexeurs à partir d'un sous-corpus qui comprend 833 notices. L'analyse du contenu comprend l'attribution d'une ou plusieurs rubriques de classement, la rédaction d'un résumé (résumé surtout indicatif, mais aussi indicatif-informatif et assez souvent simple annotation), et finalement l'indexation (descripteurs principaux, descripteurs secondaires, candidats-descripteurs, identificateurs géographiques). Le thésaurus contient près de 1500 descripteurs et le plan de classification inclut 23 grandes classes.

Le marquage des textes au moyen du logiciel SATO

Comme nous ne cherchons pas seulement les signifiants qui pourraient se retrouver dans l'un et l'autre de ces corpus, mais diverses caractéristiques sémiotiques de ces signifiants, il nous faut recourir à un logiciel qui permette non seulement le marquage de ces caractéristiques (propriétés et valeurs de propriétés), mais leur détection automatique. Nous avons opté pour le logiciel SATO (Système d'analyse de textes par ordinateur) conçu par un collaborateur de longue date (Daoust, 1992).

Les caractéristiques attribuées aux données, en contexte (dans le texte) ou hors contexte (dans le lexique), consistent en l'ajout automatique ou assisté par ordinateur d'informations de nature diverse décrivant le statut sémiotique des constituants du texte et enrichissant les chaînes de caractères immédiatement accessibles à l'ordinateur. Ces caractéristiques proviennent de connaissances générales de la langue (type de langue, nature grammaticale des lexèmes), de connaissances générales sur la structure des textes (phrases, paragraphes), d'informations de nature éditique (conventions typographiques -- capitales, caractères gras ou italiques -- dans les enregistrements), de connaissances spécifiques au domaine (vocabulaire de spécialité, structure des textes et de leurs résumés, mention de loi, de jurisprudence et de doctrine), de connaissances "documentaires" (champs d'une notice, appartenance ou non des lexèmes aux langages documentaires), de propriétés statistiques (fréquence absolue ou relative, indice de répartition, valeur discriminante, chi 2, etc.). On peut introduire autant de propriétés qu'on le juge utile et les modifier au gré des hypothèses.

Les analyses

Une fois caractérisées, les données sont filtrées en fonction des différents indices et soumises à une analyse de discrimination sur SPSS qui fait ressortir les meilleurs prédicteurs pour expliquer dans leur ensemble les résultats des diverses opérations d'analyse ou pour caractériser les divergences observées entre plusieurs indexeurs.

Les enquêtes cognitives

Pour alimenter le choix des caractéristiques à examiner dans la confrontation entre textes de départ, textes intermédiaires et produits finals, nous avons recours à notre connaissance de l'analyse documentaire, du contenu des normes et politiques d'analyse des grands services secondaires ainsi qu'aux recherches antérieures sur les propriétés d'un bon terme d'indexation (Jones, 1983; Grunberger, 1985; O'Connor 1965; Weinberg, 1981). Comme les facteurs contextuels jouent un grand rôle dans l'effectuation de la tâche et comme, avec le même langage et les mêmes politiques, plusieurs indexeurs arrivent à des résultats divergents ainsi que l'ont montré beaucoup d'études sur la cohérence de l'indexation (Markey, 1984), il nous faut étudier de façon plus spécifique la démarche des sujets responsables de l'analyse documentaire, essayer de découvrir les techniques et les stratégies employées pour parcourir un texte, les différentes parties du texte examinées pour prendre une décision de sélection, de tri-classification, de résumé et d'indexation, les connaissances utilisées, les catégorisations effectuées, les inférences faites pour passer des expressions en langue naturelle à leurs équivalents dans le thésaurus.

Dans le premier projet, nous avons privilégié l'entrevue semi- dirigée auprès des experts, l'explicitation a posteriori des démarches suivies et des décisions prises, la clarification au vu des résultats de nos traitements (confrontation entre politiques déclarées et tendances observées dans les corpus), ainsi que l'observation non enregistrée des indexeurs commentant leur analyse en cours d'effectuation. Pour le second projet, comme l'équipe de recherche comprenait des spécialistes en psychologie cognitive, nous avons pu procéder à une analyse de protocoles avec verbalisation concomitante et consécutive sur trace (les résultats préliminaires font l'objet d'une autre conférence dans le cadre de ce congrès par David et al., 1995). Rappelons que les recherches sur les processus cognitifs de l'analyse documentaire sont relativement récentes et peu nombreuses (Bertrand, 1993; ; David, 1990; Endres-Niggemeyer, 1990; Farrow, 1991).

La complémentarité des approches

La complémentarité des approches, recommandée à plusieurs reprises (Chaumier et Dejean, 1992; Doszkocs, 1986; Blosseville et al., 1992; Grunberger, 1985), offre des avantages non négligeables. L'analyse statistico-linguistique des textes s'appuie sur les productions réelles des analystes - et non pas sur ce qu'ils disent faire, ont l'intention de faire ou ont conscience de faire. Elle peut porter sur un très grand nombre de productions. En cela, elle permet de corroborer ou de compléter les résultats obtenus à l'aide d'enquêtes cognitives qui, elles, ne peuvent être effectuées qu'auprès d'un nombre restreint d'experts pour un petit nombre de textes, mais qui, par contre, donnent une foule de renseignements très spécifiques sur les parties de textes examinées, les démarches de consultation des outils documentaires, les raisons de telle ou telle décision en autant que les sujets les verbalisent. Plusieurs des éléments textuels consultés ne sont pas retenus dans la phase finale de l'indexation et sont donc inaccessibles à l'analyse automatique des productions; d'autre part, plusieurs connaissances utilisées sont de si haut niveau qu'elles ne peuvent pas être prises en compte par les analyseurs trop rudimentaires. Les observations faites en cours d'expérimentation et les questions posées aux sujets sont, à leur tour, alimentées par les grandes tendances révélées par l'analyse des textes. En fait, nous procédons selon un aller-retour entre analyse de textes et observation des sujets.

QUELQUES RÉSULTATS

Chez SOQUIJ

Avec le projet SOQUIJ, nous avons pu vérifier que les indices utilisés pour les quatre opérations d'analyse étudiées sont très différents et se prêtent inégalement à une aide informatique (Footnote: Pour les détails de la méthodologie et des résultats, consulter Bertrand-Gastaldy et al., 1994.).

Ainsi, la sélection de jugements repose sur des opérations cognitives complexes mettant en jeu de nombreuses connaissances spécialisées du domaine juridique et du monde en général (Footnote: Elle est régie par l'annexe 2 au Règlement (Loi sur la Société québécoise d'information juridique (L.R.Q., chap. S-20, art. 21) qui fixe le critères suivants: 1) un point de droit nouveau; 2) une orientation jurisprudentielle nouvelle; 3) des faits inusités; 4) une information documentaire substantielle; 5) une problématique sociale particulière.). C'est pourquoi la prise de décision restera toujours la prérogative des conseillers juridiques, bien que quelques critères formels simples, issus de la comparaison d'un corpus de jugements retenus et d'un corpus de jugements rejetés, permettent néanmoins de déclarer candidats au rejet un certain nombre de textes: les jugements sont courts; ils sont de type formulaire; ils proviennent de la Cour des petites créances; ils entérinent une convention.

Le tri-classification, explicité par les conseillers juridiques et vérifié par différentes analyses statistico-linguistiques, offre un portrait clair des éléments importants. L'appartenance d'un jugement à un domaine du droit peut être décelée, la plupart du temps, d'après quatre types de renseignements contenus dans la première page: le tribunal, le nom des parties ou la procédure entreprise, le numéro de greffe, l'intitulé du jugement le cas échéant. Il faut parfois consulter le texte du jugement, pour repérer soit des lois ou articles du code civil cités, soit le vocabulaire employé par le juge (surtout des termes répertoriés dans le thésaurus ou le plan de classification). La combinaison d'indices comme la présence d'un terme associée à sa position ou la co-présence et la proximité de deux termes doivent parfois être pris en compte.

Pour la rédaction des résumés, l'enquête cognitive a permis d'établir une liste des éléments textuels importants pour tous les experts et pour chacun selon le domaine de droit dans lequel il oeuvre: d'une part, les unités lexicales du thésaurus, les mentions de lois ou d'articles de lois ainsi que les termes désignant les juges, d'autre part, certaines expressions indiquant qu'il y a discussion, lien de causalité, interprétation, etc. Chaque spécialiste possède, en fait, un schéma de la structure d'exposition des jugements dans tel ou tel domaine et recherche les énoncés- clés dans les parties réputées les contenir.

Pour la tâche d'indexation, nous avons comparé les propriétés des termes présents ou pas dans les résumés et retenus ou pas dans les manchettes. Toutes nos analyses ont pris appui sur les phénomènes d'intertextualité entre les résumés, les manchettes et les outils documentaires. Nous avons, entre autres, exploré l'importance de critères comme la position des termes dans la macro et la meso-structure des résumés, leur fréquence, leur valeur discriminante, l'appartenance au domaine de droit dans lequel le jugement a été classé et nous avons entrepris l'étude de l'appartenance des termes à une grille implicite propre à chaque domaine du droit.

Dans Envirodoq

Ce sont à peu près les mêmes propriétés que nous examinons actuellement dans la base de données Envirodoq pour percevoir les grandes tendances de l'indexation et les divergences entre indexeurs.

Globalement, il appert que:

- la généralité des termes (surtout des unitermes du thésaurus) est un bon prédicteur de leur rejet;

- la présence d'un terme à la fois dans le titre et dans le résumé augmente ses chances d'être sélectionné comme descripteur principal;

- une fréquence élevée dans la notice et une valeur discriminante élevée caractérisent davantage les termes retenus comme descripteurs principaux et candidats-descripteurs que comme descripteurs secondaires;

- les termes présents et retenus comme descripteurs principaux et comme candidats-descripteurs se retrouvent de façon significative dans la première phrase;

- les termes présents et retenus comme descripteurs secondaires, quant à eux, se retrouvent plutôt dans la dernière ou l'avant-dernière phrase.

Des différences entre les deux indexeurs qui ont signé le plus grand nombre de notices ressortent, par exemple:

- Y a tendance à retenir un plus fort pourcentage de termes contrôlés présents dans les titres et/ou les résumés;

- parmi les termes présents dans les deux zones à la fois et retenus, elle choisit de les mettre en descripteurs principaux plus souvent que X;

- lorsqu'ils sont dans le titre seulement et non présents dans le thésaurus, elle en retient un plus grand pourcentage comme candidats-descripteurs;

- ses descripteurs principaux ont une fréquence moyenne plus élevée que ceux de sa collègue, de même que ses candidats-descripteurs;

- X privilégie la première phrase comme source de descripteurs principaux et, dans une moindre mesure, de descripteurs secondaires, alors qu'un plus grand pourcentage de descripteurs sont tirés de l'avant-dernière phrase par Y que par X.

- finalement les termes retenus par X ont un indice discriminant plus élevé que ceux d'Y.

CONCLUSION

Les bases théoriques sur lesquelles nous nous appuyons s'avèrent fécondes et notre analyse sémiotique des textes primaires et secondaires combinée à une approche cognitive peut avoir plusieurs applications. Même limitée à certains indices pertinents décelables par des analyseurs, notre méthodologie permet à la fois de dégager plusieurs des grandes tendances d'indexation suivies dans une base de données et de caractériser en partie le style d'indexation de chaque indexeur. Elle ouvre donc la voie à la correction des politiques d'analyse implicites ou explicites. De plus, elle constitue un bon moyen d'extraction de l'expertise à partir des productions réelles et offre une complémentarité à l'enquête cognitive en révélant des faits non explicités. L'interprétation des causes de divergences entre la pratique et les politiques d'un service d'indexation ou entre indexeurs d'un même service reste évidemment à la charge de l'enquêteur. Les différences observées peuvent avoir une justification et nécessiter des systèmes individualisés d'aide à l'indexation selon le domaine ou selon le type de documents analysés. Notre méthodologie consistant à modéliser certaines des stratégies cognitives mises en oeuvre par les experts du domaine en fonction des produits attendus, elle peut servir de préalable à la constitution d'un système expert d'aide à la lecture, que celle-ci soit documentaire ou concerne toute autre approche du contenu textuel. C'est d'ailleurs ce que nous avons fait pour SOQUIJ au moyen de l'Atelier Cognitif et TExtuel (ACTE) qui intègre un générateur de système expert (GSE) et SATO.

BIBLIOGRAPHIE

Beacco, J.-C.; Darot, M. 1984. Analyse de discours; lecture et expression. Paris: Hachette / Larousse.

Beghtol, C. 1986. Bibliographic classification theory and text linguistics: aboutness analysis, intertextuality and the cognitive act of classifying documents. Journal of documentation; 42(2): 84-113.

Bertrand, A.1993 Compréhension et catégorisation dans une activité complexe: l'indexation de documents scientifiques. Thèse de doctorat, Équipe de psychologie du travail ER 15- CNRS, Université de Toulouse-Le Mirail, France.

Bertrand-Gastaldy, S., Paquin L.-C., Pagola, G., Daoust, F. 1994. Le traitement des textes primaires et secondaires pour la conception et le fonctionnement d'un prototype de système expert d'aide à l'analyse des jugements. Colloque Traitement automatique du français écrit. 62e congrès de l'ACFAS, 16-20 mai 1994.[à paraître]

Blosseville, M.J.; Hébrail, G.; Monteil, M.G.; Pénot, N. 1992 Automatic document classification: Natural language processing, statistical analysis and expert system techniques used together. SIGIR 92, Proceedings of the fifteenth annual international ACM SIGIR conference on research and development in information retrieval, Copenhagen, Denmark, June 21-24, 1992: 51- 57.

Chaumier, J.; Dejean, M. 1990. L'indexation documentaire: de l'analyse conceptuelle humaine à l'analyse automatique morpho-syntaxique. Documentaliste ; 27(6): 275-279.

Daoust, F. 1992. SATO; Système d'analyse de texte par ordinateur. Manuel de références. [Montréal]: Université du Québec à Montréal, Centre d'analyse de textes par ordinateur.

David, C. 1990. Élaboration d'une méthodologie d'analyse des processus cognitifs dans l'indexation documentaire. Montréal: Université de Montréal, Département de communication. Mémoire de maîtrise.

Doszkocs, Tamas. 1986. Natural language processing in information retrieval. Journal of the american society for information science; 37(4): 191- 196.

Deledalle, G. 1979. Théorie et pratique du signe; introduction à la sémiotique de Peirce. Paris: Payot.

Eco, U. 1985. Lector in fabula; ou la coopération interprétative dans les textes narratifs. Paris: Grasset.

Eco, U. 1988. Sémiotique et philosophie du langage. Paris: Presses universitaires de France.

Endres-Niggemeyer, B. 1990. A procedural model of abstracting, and some ideas for its implementation. TKE'90; Terminology and knowledge engineering. Frankfurt: Indeks Verlag: 230-243.

Farrow, J. F. 1991. A cognitive process model of document indexing. Journal of documentation; 47(2): 149-166.

Grunberger, M.W. 1985. Textual analysis and the assignment of index entries for social science and humanities monographs. New Brunswick, NJ: Rutgers University. PhD Dissertation.

Halliday, M.A.K. 1985. An introduction to functional grammar. London: Edward Arnold.

Hochon, J.-C.; Évrard, F. 1994. Lecture professionnelle et gestion personnalisée de documents textuels. ICO Québec; 26(1- 2): 9-18.

Hutchins, W. J. 1975. Languages of indexing and classification : A Llnguistic study of Ssructures and functions. Stevenage, Eng.: P. Peregrinus.

Iser, W. 1985. The Art of reading;A theory of esthetic response. Baltimore: John Hopkins University.

Jones, K. P. 1983. How do we index? A report of some Aslib Information group activity. Journal of documentation; 39: 1-23.

Le Roux, D.; Monteil, M.-G. 1993. Perspectives d'automatisation de l'activité résumante: présentation du projet SERAPHIN. ICO93; Actes du colloque international en informatique cognitive des organisations/ International conference on cognitive and computer sciences for organizations, 4-7 mai 1993, Montréal:.

McKenzie, D.F. 1991. La bibliographie et la sociologie des textes. Paris: Éditions du Cercle de la Librairie.

Markey, K. 1984. Inter-indexer consistency tests: A literature review and report of a test of consistency in indexing visual materials. Library and information science research ; 6: 155-177.

Meunier, J.-G. 1993. Semiotic primitives and conceptual representation of knowledge. In: Signs,search and communication ; Semiotics aspects of artificial intelligence, éd. par René J. Jorna, Barend van Heusden et Roland Posner. Berlin: Walter de Gruyter: 66-89.

Meunier, J.-G.; Bertrand-Gastaldy, S.; Paquin, L.-C. 1994. La gestion et l'analyse des textes par ordinateur: leur spécificité dans le traitement de l'information; ICO Québec; 6(1-2): 19-28.

O'Connor, J. 1965. Automatic subject recognition in scientific papers: an empirical study. Journal of the Association of computing machinery; 12.

Pennac, Daniel. 1992. Comme un roman. Paris: Gallimard.

Rastier, F. 1989. Sens et textualité. Paris: Hachette.

Van Dijk, T. A. 1977. Perspective paper: Complex semantic information processing. In: Natural language in information science; Perspectives and directions for research., éd. par D.E. Walker, H. Karlgren et M. Kay. Stockholm: Skriptor.

Weaver, C. 1985. Parallels between new paradigms in science and in reading and literary theories: An essay review. Research in the teaching of English; 19(3): 298-316.

Weinberg, Bella Hass. 1981. Word frequency and automatic indexing. Columbia University. Ph.D. Thesis.


HTML conversion by Dennis Ward - May 17, 1995