Caractéristiques de Recoll

Systèmes

Recoll a été compilé et testé sur FreeBSD, Linux, Darwin, Solaris (versions FreeBSD 5/6, Fedora Core 5/6, Suse 10.1, Gentoo, Debian 3.1, Ubuntu Edgy, Solaris 8/9, mais d'autres versions récentes conviennent sans doute également).

Versions de QT: 3.2, 3.3 et 4.2

Types de documents

Recoll peut traiter les types de documents suivants, ainsi que des fichiers compressés du même type:

En interne

text.
html.
OpenOffice (avec l'aide de la commande unzip).
Abiword.
Kword.
maildir, mh et mailbox (Mozilla, Thunderbird, Evolution et sans doute d'autres).
Fichiers de conversation gaim.
Lyx (qui doit être présent).
Scribus.

Avec des paquets externes

pdf avec xpdf.
Wordperfect avec libwpd.
postscript avec ghostscript et pstotext.
msword avec antiword.
Powerpoint et Excel avec les utilitaires catdoc.
rtf avec unrtf.
dvi avec dvips.
djvu avec DjVuLibre.
Tags mp3 avec id3info (id3lib).

Autres caractéristiques

Index multiples interrogeables ensemble ou séparément.
Fonctions de recherche puissantes, avec expressions booléennes, phrases et proximité, caractères jokers, filtrage sur les types de fichiers où l'emplacement.
Fonction spécifique de recherche de noms de fichiers.
Support de jeux de caractères multiples. Les traitements internes et l'index utilisent l'encodage Unicode UTF-8.
L'extraction des racines de mots Stemming est effectuée au moment de la recherche (permet de changer de langue après l'indexation).
Installation facile. Pas de processus permanent, de serveur web ou environnement exotique.
Un indexeur qui peut fonctionner soit comme un processus léger dans l'interface de consultation, comme un programme batch externe intégrable par cron, ou comme un processus permanent pour l'indexation au fil de l'eau.

Lemmatisation

Note: je serais preneur d'une traduction française agréable pour "stemming".

La lemmatisation transforme un mot dérivé vers sa racine. Par exemple, aimer, aimerai, aimait, aimez etc. seraient transformés en aim en français. Une recherche de l'un quelconque des dérivés peut automatiquement être étendue vers tous les autres

Certains moteurs de recherche appliquent la transformation pendant l'indexation. L'index ne stocke que les racines des mots, avec des exceptions pour les termes qui sont reconnus comme des noms propres (capitalisation). Au moment de la recherche, les termes de la requête sont également transformés avant comparaison à l'index.

Cette approche permet un index plus petit, mais elle perd irrévocablement de l'information pendant l'indexation.

Recoll fonctionne différemment. Les termes sont indexés sans transformation. L'index résultant est plus gros, ce qui n'a probablement pas beaucoup d'importance à une époque de disques de 100 Go principalement remplis d'information multimédia non indexée.

À la fin de l'indexation, Recoll construit un ou plusieurs dictionnaires de transformation (pour différents langages), où toutes les racines sont listées avec leurs transformations possibles.

Au moment de la recherche, par défaut, les termes de l'utilisateurs sont transformés, et étendus aux dérivés par utilisation du dictionnaire. Les résultats obtenus sont analogues à ceux de l'autre méthode. L'avantage est que l'expansion peut être contrôlée au moment de la recherche:

On peut la supprimer pour n'importe quel terme de la requête, (en le faisant débuter par une capitale: Aime par exemple pour chercher la ville d'Aime la Plagne).
Le langage de transformation peut également être changé, en supposant que plusieurs dictionnaires de transformation aient été construits lors de l'indexation.