pylexique¶
Logiciel libre : licence MIT
Documentation de PyLexique: https://pylexique.readthedocs.io (en) – https://pylexique.readthedocs.io/fr/ (fr)
class LexEntryType:
"""
Type information about all the lexical attributes in a LexItem object.
"""
ortho: str
phon: str
lemme: str
cgram: str
genre: str
nombre: str
freqlemfilms2: float
freqlemlivres: float
freqfilms2: float
freqlivres: float
infover: str
nbhomogr: int
nbhomoph: int
islem: bool
nblettres: int
nbphons: int
cvcv: str
p_cvcv: str
voisorth: int
voisphon: int
puorth: int
puphon: int
syll: str
nbsyll: int
cv_cv: str
orthrenv: str
phonrenv: str
orthosyll: str
cgramortho: str
deflem: float
defobs: int
old20: float
pld20: float
morphoder: str
nbmorph: int
Les significations des attributs de cet objet sont les suivantes :
ortho : le mot
phon : les formes phonologiques du mot
lemme : les lemmes de ce mot
cgram : les catégories grammaticales de ce mot
genre : le genre
nombre : le nombre
freqlemfilms : la fréquence du lemme selon le corpus de sous-titres (par million d’occurrences)
freqlemlivres : la fréquence du lemme selon le corpus de livres (par million d’occurrences)
freqfilms : la fréquence du mot selon le corpus de sous-titres (par million d’occurrences)
freqlivres : la fréquence du mot selon le corpus de livres (par million d’occurrences)
infover : modes, temps et personnes possibles pour les verbes
nbhomogr : nombre d’homographes
nbhomoph : nombre d’homophones
islem : indique si c’est un lemme ou non
nblettres : le nombre de lettres
nbphons : nombre de phonèmes
cvcv : la structure orthographique
p-cvcv : la structure phonologique
voisorth : nombre de voisins orthographiques
voisphon : nombre de voisins phonologiques
puorth : point d’unicité orthographique
puphon : point d’unicité phonologique
syllabe : forme phonologique des syllabes
nbsyll : nombre de syllabes
cv-cv : structure phonologique des syllabes
orthrenv : forme orthographique inversée
phonrenv : forme phonologique inversée
orthosyll : forme orthographique des syllabes
cgramortho : les différentes catégories grammaticales pour une représentation orthographique donnée
deflem : le pourcentage de personnes qui ont déclaré connaître le lemme du mot.
defobs : la taille de l’échantillon d’où est tiré “deflem”.
old20 : distance de Levenshtein orthographique
pld20 : distance de Levenshtein phonologique
morphoder : morphologie flexionnelle
nbmorph : le nombre de morphèmes directement calculé à partir de “morphoder”.
Vous pouvez trouver toutes les informations pertinentes dans la documentation officielle de Lexique383 (français).
Caractéristiques¶
- Extraire toutes les informations lexicales d’un mot français telles que :
les représentations orthographiques et phonémiques
les lemmes associés
syllabation
la catégorie grammaticale
le genre et le nombre
les fréquences d’apparition dans un corpus de livres et dans un corpus de sous-titres de films, etc…
Extraire toutes les formes lexicales d’un mot français.
Api simple d’utilisation.
Intégrez facilement pylexique dans vos propres projets en tant que bibliothèque importée.
Peut être utilisé comme un outil de ligne de commande.
Crédits¶
Développeur principal SekouDiaoNlp.
Corpus lexical : Lexique383
À propos de Lexique383¶
Lexique3¶
Lexique 3.83 est une base de données lexicale française qui fournit pour ~ 140 000 mots du français : représentations orthographique et phonémique, lemmes associés, syllabation, catégorie grammaticale, genre et nombre, fréquences dans un corpus de livres et dans un corpus de sous-titres de films, etc…
Données tabulaires: Lexique383.zip
Site web : http://www.lexique.org
Publications¶
New, Boris, Christophe Pallier, Marc Brysbaert, and Ludovic Ferrand. 2004. « Lexique 2: A New French Lexical Database. » Behavior Research Methods, Instruments, & Computers 36 (3): 516–524. DOI. pdf
New, Boris, Christophe Pallier, Ludovic Ferrand, and Rafael Matos. 2001. « Une Base de Données Lexicales Du Français Contemporain Sur Internet: LEXIQUE » L’Année Psychologique 101 (3): 447–462. DOI. pdf
Boris New, Marc Brysbaert, Jean Veronis, and Christophe Pallier. 2007. « The Use of Film Subtitles to Estimate Word Frequencies. » Applied Psycholinguistics 28 (4): 661–77. DOI. (pdf)
Contributeurs¶
Boris New & Christophe Pallier
Ronald Peereman
Sophie Dufour
Christian Lachaud
et bien d’autres encore… (contactez-nous pour être listé)
Licence¶
Entrée BibTex pour citer les publications sur Lexique383 :
@article{npbf04,
author = {New, B. and Pallier, C. and Brysbaert, M. and Ferrand, L.},
journal = {ehavior Research Methods, Instruments, & Computers},
number = {3},
pages = {516-524},
title = {Lexique 2 : A New French Lexical Database},
volume = {36},
year = {2004},
eprint = {http://www.lexique.org/?page_id=294},
}
@article{npfm01,
author = {New, B. and Pallier, C. and Ferrand, L. and Matos, R.},
journal = {L'Ann{\'e}e Pschologique},
number = {447-462},
pages = {1396-2},
title = {Une base de donn{\'e}es lexicales du fran\c{c}ais contemporain sur internet: LEXIQUE},
volume = {101},
year = {2001},
}
@article{new_brysbaert_veronis_pallier_2007,
author={NEW, BORIS and BRYSBAERT, MARC and VERONIS, JEAN and PALLIER, CHRISTOPHE},
title={The use of film subtitles to estimate word frequencies},
volume={28}, DOI={10.1017/S014271640707035X},
number={4}, journal={Applied Psycholinguistics},
publisher={Cambridge University Press},
year={2007},
pages={661–677}}
BibTeX¶
Si vous souhaitez citer pylexique dans une publication universitaire, utilisez ce format de citation :
@article{pylexique,
title={pylexique},
author={Sekou Diao},
journal={GitHub. Note: https://github.com/SekouDiaoNlp/pylexique Cited by},
year={2021}
}