Vous avez des téraoctets de données à portée de main mais aucune capacité à trouver quoi que ce soit ? Cet article répertorie des conseils durement gagnés après de nombreuses années de travail pour une entreprise et une société de logiciels de moteur de recherche pour développeurs. Bien que les conseils utilisent la terminologie et la gamme de produits dtSearch®, ces conseils sont généralement applicables.
Comment faire briller une lumière de recherche à travers des téraoctets de données
Construire un indice
La première astuce consiste à utiliser le moteur de recherche pour créer un index au lieu de simplement faire une recherche non indexée. La recherche non indexée est lente. La recherche indexée est généralement instantanée, même pour plusieurs requêtes de recherche simultanées sur plusieurs téraoctets. (D’un point de vue technique, les recherches indexées simultanées peuvent s’exécuter à partir de différents threads dans un environnement en ligne ou en réseau sans s’affecter mutuellement.)
Qu’est-ce qu’un indice ?
Un index est simplement un outil interne qui permet au moteur de recherche de rechercher des téraoctets en un instant. Comment obtenir un tel indice ? Pointez simplement sur ce que vous voulez indexer et le moteur de recherche fera le reste. Ce n’est pas un problème si vous n’avez pas une idée claire de ce qu’il y a dans vos données.
Le moteur de recherche peut identifier automatiquement les formats de fichiers tels que Microsoft Word, Access, Excel, PowerPoint et OneNote ; fichiers de courrier électronique ; PDF ; et des formats Web comme HTML ou XML.
Le moteur de recherche peut automatiquement passer au crible les archives compressées telles que RAR et ZIP pour indexer les fichiers.
Mais que se passe-t-il si certains des fichiers PDF sont enregistrés avec des extensions de fichier MS Word comme .DOCX — et certains fichiers Access sont enregistrés avec des extensions de fichier Excel, etc. ?
Cette situation ne pose pas de problème. Les filtres de documents du moteur de recherche qui analysent les données peuvent regarder à l’intérieur de chaque fichier pour déterminer le type de fichier correct sans référence à l’extension de fichier.
Les filtres de documents peuvent également parcourir les fichiers à la recherche de documents imbriqués.
S’il existe un fichier ZIP ou RAR avec un fichier Excel intégré et que le fichier Excel contient une base de données Access et un fichier Word, les filtres de documents trouveront et analyseront également les documents intégrés. Notez que le texte noir sur noir ou blanc sur blanc ou rouge sur rouge peut être invisible lorsque vous affichez un fichier dans l’application pertinente de ce fichier, mais il ne s’agit que de texte simple pour un moteur de recherche.
Un dernier pointeur dans le plus large « construire un index ». VOICI UN CONSEIL : indexez directement les fichiers email, si possible sous forme de fichiers PST, OST, MSG, etc., sans passer par Outlook.
Le moteur de recherche peut indexer les e-mails Outlook via Outlook, mais passer par Outlook / MAPI ralentira l’indexeur par rapport à l’accès direct à ces types de fichiers.
Vérifier les journaux d’index
La deuxième astuce consiste à vérifier les journaux d’index. Les journaux peuvent identifier les fichiers que le moteur de recherche ne peut pas indexer pour une raison quelconque. Un exemple clé est celui des fichiers PDF « image uniquement ».
Un PDF ordinaire combine du texte et des images. Vous pouvez dire que vous avez du texte réel dans un PDF si vous pouvez copier et coller une sélection de texte dans un autre fichier. Mais les PDF « image uniquement » sont différents.
Si vous essayez de copier et coller ce qui peut ressembler à des mots de ceux-ci, ce processus ne mène nulle part. Mais, bien sûr, sans texte réel, juste des images, le moteur de recherche ne peut pas indexer et rechercher le contenu de ces fichiers. (Le moteur de recherche peut toujours indexer les métadonnées, mais l’événement principal sera manquant.)
Voici la partie délicate : les fichiers PDF « image uniquement » peuvent apparaître dans les collections de données avec des fichiers PDF ordinaires sans identifiants externes indiquant que ces fichiers PDF « image uniquement » sont présents.
Mais le fichier journal d’indexation signalera les fichiers PDF « image uniquement ». Vous pouvez ensuite exécuter ces fichiers PDF « image uniquement » via une application OCR telle qu’Adobe Acrobat pour les transformer en fichiers PDF normaux et les ajouter à votre index.
Envisagez la mise en cache des documents
La troisième astuce consiste à envisager la mise en cache des documents dans votre index, où les documents ou autres données sont soumis à une connexion distante ou non fiable ou peuvent même être complètement indisponibles à leur emplacement d’origine. Une explication rapide du fonctionnement de l’affichage des résultats de la recherche permet d’expliquer cette astuce.
Un moteur de recherche traite les requêtes de recherche autonomes et multithread en utilisant les données de l’index lui-même. Pour afficher le texte intégral avec les résultats en surbrillance, le moteur de recherche revient au fichier d’origine ou à d’autres données pour extraire une copie de cet élément. Le moteur de recherche utilise ensuite l’index pour déterminer où les résultats doivent être dans cette copie et les marque dans l’affichage des résultats de la recherche.
Les hits mis en évidence sont littéralement la lumière qui brille à travers vos données.
Si le fichier d’origine est facilement accessible et rapide à récupérer, ce processus est simple. Cependant, si le fichier d’origine est lent à récupérer ou simplement disparu, le processus d’affichage cesse d’être transparent. La réponse est de mettre en cache ou de stocker une copie complète du fichier ou d’autres données avec l’index lui-même. En utilisant ce cache, le processus d’affichage reste fluide et instantané même sans accès aux originaux.
L’inconvénient de la mise en cache est qu’elle augmente considérablement la taille de l’index, car l’index stocke désormais le texte complet de tous les fichiers avec l’index de base lui-même. Mais lorsque l’original est lent ou indisponible, la mise en cache en vaut la peine.
Mettez à jour vos index
Le prochain conseil est de garder vos index à jour pour refléter les fichiers qui ont été ajoutés, supprimés ou modifiés. Ce processus est plus facile qu’il n’y paraît. Ajouter quelque chose de nouveau ne nécessite pas de reconstruire un index à partir de zéro. Au lieu de cela, le moteur de recherche peut vérifier automatiquement chaque fichier et voir si ce fichier a été modifié, supprimé ou ajouté depuis la dernière génération d’index et simplement indexer « la différence ».
Une option de compression rationalise les bagages supplémentaires qui peuvent suivre plusieurs mises à jour d’index.
Vous pouvez également définir des mises à jour d’index automatiques via le planificateur de tâches Windows à des moments précis. Il est important de noter que la recherche, même la recherche simultanée, peut se poursuivre sans interruption lors des mises à jour d’index.
Affiner votre demande de recherche
Le cinquième conseil est de faire attention à la façon dont vous formulez une demande de recherche. Par exemple, la recherche en langage naturel vous permet de saisir une demande de recherche en « anglais simple » ou même de copier et coller un paragraphe de texte et d’obtenir des résultats de recherche classés par pertinence.
J’utilise ici le terme « anglais simple » pour saisir l’essence de la recherche en langage naturel. Mais notez qu’un moteur de recherche peut fonctionner automatiquement avec n’importe laquelle des centaines de langues Unicode, même les langues de droite à gauche comme l’hébreu et l’arabe, et les langues à double octet comme le chinois, le japonais et le coréen.
Sous le capot, le classement par pertinence fonctionne comme suit. Si vous recherchez mauve ou alors bleu, et bleu est partout dans vos données indexées, mais mauve les références sont beaucoup plus rares, alors les fichiers avec mauve obtiendra un classement de pertinence plus élevé. De plus, les fichiers plus denses mauve les mentions reçoivent un classement de pertinence encore plus élevé.
Les requêtes de recherche en langage naturel nécessitent peu d’efforts pour composer ; il est souvent plus fructueux de prendre le temps de saisir plutôt une demande de recherche de précision.
Un moteur de recherche peut également prendre en charge la recherche d’expressions, les requêtes de recherche booléennes et/ou non, la recherche de proximité dans un sens (X avant Y) ou dans les deux sens (X avant ou après Y), la recherche de concepts, la recherche spécifique aux métadonnées, le nombre recherche de plage numérique, recherche de date et de plage de données, et bien plus encore.
Utilisez ces différentes options pour affiner vos demandes de recherche afin d’obtenir exactement ce que vous recherchez. N’oubliez pas non plus les options de recherche plus spécialisées, telles que la possibilité d’identifier les numéros de carte de crédit dans les données, la génération et la recherche de valeurs de hachage de fichier, la pondération des termes variables positive et négative, y compris dans des métadonnées spécifiques, etc.
Une option de recherche spécifique que vous pouvez utiliser en complément des requêtes de recherche en langage naturel et structuré est la recherche floue. La recherche floue recherche les écarts typographiques mineurs qui peuvent apparaître dans les e-mails et dans le texte OCR. Ainsi, par exemple, une recherche de mauve ramasserait aussi mauve avec une recherche floue de faible niveau pour vous assurer de trouver ce que vous cherchez, même avec de légères fautes d’orthographe.
Un dernier point concernant les requêtes de recherche : vous n’êtes pas bloqué avec votre option de tri par défaut.
Si vous avez la recherche en langage naturel comme option de tri par défaut, vous pouvez cliquer pour changer immédiatement cela pour trier par date de fichier ascendante ou descendante, taille de fichier ascendante ou descendante, présence de mots-clés dans des métadonnées spécifiques, etc. Toutes ces options ajoutent un fenêtre différente dans les résultats de recherche et récupérer des éléments.
Marquer les fichiers pertinents
Le sixième conseil de recherche est qu’une fois que vous avez trouvé ce que vous cherchez, vous pouvez marquer les fichiers critiques dont vous avez besoin et les copier.
Vous pouvez même copier des fichiers sélectionnés à l’intérieur d’une archive de courrier électronique plus importante ou d’une archive compressée de type ZIP ou RAR (aucun « un-ZIP » séparé requis). Vous pouvez également demander au moteur de recherche de préparer un rapport de recherche montrant tous les résultats avec autant de contexte que vous le souhaitez autour de chaque résultat.
Les rapports de recherche peuvent fonctionner sur tous les fichiers récupérés, ou vous pouvez baliser les fichiers à inclure dans un rapport de recherche et limiter le rapport de recherche à ceux-ci uniquement.
Ces conseils vous aideront à faire la lumière sur des téraoctets de données, que les données avec lesquelles vous travaillez soient les vôtres ou proviennent d’un tiers où vous n’avez jamais vu l’ensemble de données auparavant.
Crédit d’image : tiers ; pexels; Merci!
L’article Comment faire briller une lumière de recherche à travers des téraoctets de données pour arriver à « Tag You Are It » est apparu en premier sur zimo news.