Environnement OCR - Elasticsearch
Pour le fonctionnement de l'OCR et de la recherche plein texte au sein de QALITEL, il sera nécessaire d'installer les modules suivants :
- Poppler (PDFtoText et PDFtoImages)
- Tesseract
- Elasticsearch
1. Installation des différents modules
1.1. Installation de Poppler
Vous pouvez télécharger la version de Poppler à partir de ce lien
C'est un fichier ZIP que vous pouvez décompresser sur votre disque dur
1.2. Installation de Tesseract
Vous pouvez télécharger la version de Tesseract à partir de ce lien
ATTENTION : L'installation de la langue "French" nécessite une connexion Internet.
Exécutez le programme d'installation téléchargé et suivez les directives ci-dessous :
Passez ensutie les différents écrans. Une fois sur la fenêtre présentant les composants, ouvrez la branche "Additional language data (optional)"
Sélectionnez alors les langues dont vous souhaitez la prise en charge par le module OCR
1.3. Installation d'ElasticSearch
Vous pouvez télécharger la version d'Elasticsearch à partir de ce lien
Décompressez le fichier téléchargé sur votre disque dur.
Elasticsearch nécessite OpenJDK. Une version est inclue par défaut dans le ZIP d'Elasticsearch
Si vous ne disposez d'OpenJDK, vous devez alors configurer la variable d'environnement ES_JAVA_HOME.
Accédez à la fenêtre des Propriétés système pour configurer la variable :
Accédez à l'éran de paramétrage pour configurer la variable ES_JAVA_HOME en la faisant pointer sur le répertoire /JDK contenu dans la structure de répertoires d'Elasticsearch (Soit C:\elasticsearch-7.16.3\jdk dans notre exemple)
Pour démarrer Elasticsearch, ouvrez une fenêtre command prompt , placez vous dans le répertoire d'Elasticsearch puis lancez la commande ".\bin\elasticsearch.bat"
Pour tester le bon fonctionnement, ouvrez votre navigateur puis entrez : http://localhost:9200
(Le localhost peut bien entendu être remplacé par le nom de votre serveur. Elasticsearch communique par défaut sur le port 9200)
1.4. Installation d'Elasticsearch comme service Windows
Une fois validé le bon fonctinnement d'Elasticsearch, il est alors nécessaire de l'installer c omme service pour qu'il soit démarré automatiquement en cas de redémarrage du serveur.
Pour cela, on utilisera le script "elasticsearch-service.bat" présent dans le répertoire /bin d'Elasticsearch. Dans un command prompt, exécutez le script en spécifiant la commande "install"
P.S. : Si vous souhaitez supprimer le service, utilisez le même script en passant la commande "remove" à la place de la commande "install"
Accédez ensuite à la liste des services. Vous y trouverez votre servvice Elasticsearch :
Pour le configurer en démarrage automatique, faites un clic droit "Propriétés" sur la liste "Elasticsearch". Sélectionnez "Automatique" dans la liste de choix "Type de démarrage" puis cliquez sur le bouton "Démarrer" pour démarrer le service
1.5. Sécurisation d'Elasticsearch
Dans le cas où votre serveur Elasticsearch est exposé (accessible via Internet), vous avez la possibilité de le sécuriser sur 2 points :
- Changement du port par défaut
- Authentification par utilisateur / mot de passe
Ces paramétrages se font au niveau du ficheir de configuration d'Elasticsearch C:\elasticsearch-7.16.3\config\elasticsearch.yml (dans notre exemple)
1.5.1. Changement du port par défaut
Dans le fichier elasticsearch.yml, décommnetez la ligne http.port et spécifiez ensuite le port de votre choix
1.5.2. Paramétrage d'un utilisateur elasticsearch - Activation de la sécurité
Il faut dans un premier temps activer la sécurité dans Elasticsearch.
Dans le fichier elasticsearch.yml, entrez en bas du fichier la ligne ci-dessous
xpack.security.enabled: true
Redémarrez ensuite Elasticsearch par la console des services
Pour la création d'un compte / mot de passe dans Elasticsearch, il existe 2 méthodes. La méthode automatique (que nous utiliserons) générerar des mots de passe aléatoires pour différets comptes définis par défaut (dont celui de l'utilisateur "elastic" qui nous intéresse).
L'autre méthode permet de générer des comtpes "libres".
Pour la génération des mots de passe sur les comptes prédéfnis, ouvrez une console DOS (PowerShell) en mode Administrateur.
Placez vous dans le dossier pricipal d'Elasticsearch (C:\elasticsearch-8.1.1 dans notre exemple)
Entrez ensuite la commande :
./bin/elasticsearch-setup-passwords auto
Le script générera des mots de passe pour différentes applications dont Elasticsearch
A l'issue de l'exécution, vous aurez alors pour l'utilisateur par défaut "elastic" le mot de passe généré automatiquement.
Il faudra ensuite dans les "Préférences Globales" de QALITEL doc renseigner ces différentes informations.
1.6. En cas d'erreurs rencontrées...
Si vous rencontrez des erreurs au démarrage d'Elasticsearch, reportez-vous à la F.A.Q. dédiée : cliquez ici
2. Paramétrage de QALITEL
Le paramétrage des modules OCR - Recherche plein texte au sein de QALITEL se fait dans les "Préférences Globales" au niveau du groupe "Archivage numérique".
Si vous n'avez pas activé la sécurisation dans Elasticsearch, laissez alors les champs "Identifiant Elasticsearch" et "Mot de passe Elasticsearch" vides