DocFetcher - Pour rechercher et lire à l'intérieur des documents

Poster ici les programmes utiles que vous avez découverts
Avatar de l’utilisateur
Parisien_entraide
Messages : 20216
Inscription : 02 juin 2012 20:48
Localisation : Thomas Anderson : Je suis dans et en dehors de la matrice :-)

DocFetcher - Pour rechercher et lire à l'intérieur des documents

par Parisien_entraide »

index0 logo.jpg

Pour diverses raisons vous ne voulez pas utiliser Windows search qui permet une recherche de mots par exemple à l'intérieur d'outlook

Il existe de nombreux logiciels de recherche de fichiers comme Everything, AnyTXT Searcher... l'article suivant en présente les principaux : 14 meilleurs logiciels de recherche de fichiers sur Windows

mais celui ci par défaut n'effectue une recherche QUE sur les noms de fichiers
La recherche à l'intérieur des documents est possible, mais c'est un peu compliqué et surtout il y a de forts ralentissements


Pour la recherche à l'intérieur de documents il existe DocFetcher qui est un bon complément à Everything


DocFectcher permet d'indexer le contenu de vos documents pour procéder par la suite à la recherche d'un mot clé ou d'une expression en particulier dans ces documents.

Pour faciliter la chose on peut choisir les dossiers dont le contenu doit être indexé

L'interface peut sembler déroutante et au lancement on recherche comment faire
C'est simple
Ne pas tenir compte du dossier 'ARTICLES" qui apparait et qui a fait l objet de tests pour cette présentation

Il suffit donc de cliquer sur la fenêtre en bas à gauche pour avoir le choix soit de créer un index sur les dossiers de son choix, soit de reprendre un dossier existant pour mettre à jour ou reconstruire l'index

Si on utilise la version portable on peut recréer, mettre à jour un index existant (sinon il y a une méthode pour créer une tache avec la version portable)

index1.jpg




QUELS DOCUMENTS SONT CONCERNES ?


Prise en charge d'Unicode :

- Les documents MS Office ou Open Office/libre Office
- Les fichiers aux formats HTML
- Les fichiers au format PDF.
- Les fichiers au format RTF et texte brut

- Fichiers Outlook PST : DocFetcher permet de rechercher des e-mails Outlook, que Microsoft Outlook stocke généralement dans des fichiers PST.

- DocFetcher prend en charge les formats d'archives suivants : zip, 7z, rar et toute la famille tar

- DocFetcher peut rechercher dans n'importe quel type de code source et d'autres formats de fichiers texte. (Cela fonctionne assez bien en combinaison avec les extensions zip personnalisables, par exemple pour rechercher dans le code source Java à l'intérieur des fichiers Jar.)

- Détection du type mime : vous pouvez utiliser des expressions régulières pour activer la "détection du type mime" pour certains fichiers, ce qui signifie que DocFetcher essaiera de détecter leurs types de fichiers réels non seulement en regardant le nom du fichier, mais aussi en jetant un coup d'œil dans le contenu du fichier . Ceci est pratique pour les fichiers qui ont la mauvaise extension de fichier.



Pour résumer : Formats de documents pris en charge

Code : Tout sélectionner

Microsoft Office (doc, xls, ppt)
Microsoft Office 2007 et plus récent (docx, xlsx, pptx, docm, xlsm, pptm)
Microsoft Outlook (pst)
OpenOffice.org (odt, ods, odg, odp, ott, ots, otg, otp)
Format de document portable (pdf)
EPUB (epub)
HTML (html, xhtml, ...)
TXT et autres formats de texte brut (personnalisables)
Format de texte enrichi (rtf)
AbiWord (abw, abw.gz, zabw)
Aide HTML compilée Microsoft (chm)
Métadonnées MP3 (mp3)
Métadonnées FLAC (flac)
Métadonnées JPEG Exif (jpg, jpeg)
Microsoft Visio (vsd)
Graphiques vectoriels évolutifs (svg)


Pour une recherche il n'est pas obligatoire de préciser toujours le type de documents
Exemple avec le .pdf

index2.jpg


Comme on peut le voir, on peut définir des critères de recherche, comme sur la taille, mais en amont comme il est dit dans la doc
" Vous pouvez utiliser des expression régulières pour exclure des fichiers de l'indexation. Par exemple, pour exclure des fichiers Microsoft Excel, vous pouvez utiliser une expression régulière comme ceci: .*\.xls "

Dans cet exemple je n'ai pas mis l'accent à "procédure" et le contenu du fichier est quand même apparu
index3.jpg



A SAVOIR

Suivant le type d'installation, (classique ou portable) l'index créé par DocFetcher se mettra ensuite à jour automatiquement à chaque modification de vos dossiers, même si DocFectcher n'est pas lancé.


- Le logiciel est gratuit, mais il existe une version PRo (pour les serveurs)
- L'application fonctionne sous Windows, Linux et OS X et est disponible sous la licence publique Eclipse .
- Les systèmes d'exploitation 32 bits et 64 bits sont pris en charge.




TEST


Pour un dossier de 1Go environ, avec 80% de fichiers textes, 20% de docuements .PDF, soit 2 200 fichiers, cela ne prend que 23 secondes sur un vieux portable de 2010 pour créer un index
L' affichage du résultat est instantané



LE SITE, avec les liens de téléchargement et documentation

Télécharger DocFetcher
http://docfetcher.sourceforge.net/en/index.html

Un forum : https://sourceforge.net/p/docfetcher/d ... on/702424/


Une FAQ

https://sourceforge.net/p/docfetcher/wiki/FAQ/


Trucs et astuces
https://sourceforge.net/p/docfetcher/wi ... %20tricks/
Vous ne pouvez pas consulter les pièces jointes insérées à ce message.
- Only Amiga... Was possible ! Lien https://forum.malekal.com/viewtopic.php?t=60830
- « Un problème sans solution est un problème mal posé. » (Albert Einstein)
- « Tous les patients mentent » (Théorème du Docteur House) Que ce soit consciemment ou inconsciemment
- Jeff Goldblum dans Informatic Park, professeur adepte de la théorie du chaos : « Vous utilisez un crack, un keygen ? Qu’est-ce qui pourrait mal tourner?? »
- Captcha : Il s'agit d'un ordinateur qui demande à un humain de prouver.. qu'il n'est pas un ordinateur ! (Les prémices du monde de demain)
- Dans le monde il y a deux sortes de gens : Ceux qui font des sauvegardes et .. Ceux qui vont faire des sauvegardes (Extrait du Credo.. Telle est la voie ! )
Malekal_morte
Messages : 116239
Inscription : 10 sept. 2005 13:57

Re: DocFetcher - Pour lire à l'intérieur des documents

par Malekal_morte »

Intéressant, merci !
Première règle élémentaire de sécurité : on réfléchit puis on clic et pas l'inverse - Les fichiers/programmes c'est comme les bonbons, quand ça vient d'un inconnu, on n'accepte pas !
Comment protéger son PC des virus
Windows 11 : Compatibilité, Configuration minimale requise, télécharger ISO et installer Windows 11

Comment demander de l'aide sur le forum
Partagez malekal.com : n'hésitez pas à partager les articles qui vous plaisent sur la page Facebook du site.
Avatar de l’utilisateur
Parisien_entraide
Messages : 20216
Inscription : 02 juin 2012 20:48
Localisation : Thomas Anderson : Je suis dans et en dehors de la matrice :-)

Re: DocFetcher - Pour rechercher et lire à l'intérieur des documents

par Parisien_entraide »

Suite à une discussion sur le forum, où un utilisateur avait quelques soucis avec une recherche à l'intérieur d'un document .docx, il existe une solution

La reconstruction de l'index
https://sourceforge.net/p/docfetcher/di ... it=50#0cac
Si vous faites un clic droit sur un index dans le volet Search Scope en bas à gauche, vous obtiendrez un menu contextuel avec les entrées suivantes :

Mettre à jour l'index
Reconstruire l'index

L'entrée "Mettre à jour l'index" lancera une mise à jour incrémentielle de l'index sélectionné. "Rebuild Index" le reconstruira à partir de zéro.
Ce n'est que par la reconstruction que vous pouvez activer ou désactiver l'option "Surveiller les dossiers pour les modifications de fichiers", qui, une fois activée, lancera automatiquement des mises à jour incrémentielles lorsque des modifications de fichiers sont détectées dans le dossier indexé.
En fait c'est la même solution que pour d'autres programmes du même genre, dont Everything, même si lui ne traite que par défaut les fichiers
- Only Amiga... Was possible ! Lien https://forum.malekal.com/viewtopic.php?t=60830
- « Un problème sans solution est un problème mal posé. » (Albert Einstein)
- « Tous les patients mentent » (Théorème du Docteur House) Que ce soit consciemment ou inconsciemment
- Jeff Goldblum dans Informatic Park, professeur adepte de la théorie du chaos : « Vous utilisez un crack, un keygen ? Qu’est-ce qui pourrait mal tourner?? »
- Captcha : Il s'agit d'un ordinateur qui demande à un humain de prouver.. qu'il n'est pas un ordinateur ! (Les prémices du monde de demain)
- Dans le monde il y a deux sortes de gens : Ceux qui font des sauvegardes et .. Ceux qui vont faire des sauvegardes (Extrait du Credo.. Telle est la voie ! )
  • Sujets similaires
    Réponses
    Vues
    Dernier message

Revenir à « Programmes utiles »