Créez votre PDF

No pages found in Basket

Environnement OCR - Elasticsearch

 

Pour le fonctionnement de l'OCR et de la recherche plein texte au sein de QALITEL, il sera nécessaire d'installer les modules suivants : 

  • Poppler (PDFtoText et PDFtoImages)
  • Tesseract
  • Elasticsearch

 

1. Installation des différents modules 

 

1.1. Installation de Poppler

Vous pouvez télécharger la version de Poppler à partir de ce lien

C'est un fichier ZIP que vous pouvez décompresser sur votre disque dur

 

1.2. Installation de Tesseract

Vous pouvez télécharger la version de Tesseract à partir de ce lien

ATTENTION : L'installation de la langue "French" nécessite une connexion Internet.

Exécutez le programme d'installation téléchargé et suivez les directives ci-dessous :

Tesseract-1

Passez ensutie les différents écrans. Une fois sur la fenêtre présentant les composants, ouvrez la branche "Additional language data (optional)"

Tesseract-2

Sélectionnez alors les langues dont vous souhaitez la prise en charge par le module OCR

Tesseract-3

 

 

1.3. Installation d'ElasticSearch

Vous pouvez télécharger la version d'Elasticsearch à partir de ce lien

Décompressez le fichier téléchargé sur votre disque dur.

 

Elasticsearch nécessite OpenJDK. Une version est inclue par défaut dans le ZIP d'Elasticsearch

Si vous ne disposez d'OpenJDK, vous devez alors configurer la variable d'environnement ES_JAVA_HOME. 

Accédez à la fenêtre des Propriétés système pour configurer la variable :

Elastic7

Accédez à l'éran de paramétrage pour configurer la variable ES_JAVA_HOME en la faisant pointer sur le répertoire /JDK contenu dans la structure de répertoires d'Elasticsearch (Soit C:\elasticsearch-7.16.3\jdk dans notre exemple)

Elastic8

Pour démarrer Elasticsearch, ouvrez une fenêtre command prompt , placez vous dans le répertoire d'Elasticsearch puis lancez la commande ".\bin\elasticsearch.bat"

Elastic1

 

Pour tester le bon fonctionnement, ouvrez votre navigateur puis entrez : http://localhost:9200

(Le localhost peut bien entendu être remplacé par le nom de votre serveur. Elasticsearch communique par défaut sur le port 9200)

Elastic2

 

1.4. Installation d'Elasticsearch comme service Windows

Une fois validé le bon fonctinnement d'Elasticsearch, il est alors nécessaire de l'installer c omme service pour qu'il soit démarré automatiquement en cas de redémarrage du serveur.

Pour cela, on utilisera le script "elasticsearch-service.bat" présent dans le répertoire /bin d'Elasticsearch. Dans un command prompt, exécutez le script en spécifiant la commande "install"

Elastic4

P.S. : Si vous souhaitez supprimer le service, utilisez le même script en passant la commande "remove" à la place de la commande "install"

Accédez ensuite à la liste des services. Vous y trouverez votre servvice Elasticsearch : 

Elastic5

Pour le configurer en démarrage automatique, faites un clic droit "Propriétés" sur la liste "Elasticsearch". Sélectionnez "Automatique" dans la liste de choix "Type de démarrage" puis cliquez sur le bouton "Démarrer" pour démarrer le service

Elastic6

 

1.5. Sécurisation d'Elasticsearch 

Dans le cas où votre serveur Elasticsearch est exposé (accessible via Internet), vous avez la possibilité de le sécuriser sur 2 points : 

  1. Changement du port par défaut
  2. Authentification par utilisateur / mot de passe

 

Ces paramétrages se font au niveau du ficheir de configuration d'Elasticsearch C:\elasticsearch-7.16.3\config\elasticsearch.yml  (dans notre exemple)

1.5.1. Changement du port par défaut

Dans le fichier elasticsearch.yml, décommnetez la ligne http.port et spécifiez ensuite le port de votre choix

 

Elastic-Port

 

1.5.2. Paramétrage d'un utilisateur elasticsearch - Activation de la sécurité

Il faut dans un premier temps activer la sécurité dans Elasticsearch.

Dans le fichier elasticsearch.yml, entrez en bas du fichier la ligne ci-dessous


xpack.security.enabled: true

Elastic-Auth1

Redémarrez ensuite Elasticsearch par la console des services

 

Pour la création d'un compte / mot de passe dans Elasticsearch, il existe 2 méthodes. La méthode automatique (que nous utiliserons) générerar des mots de passe aléatoires pour différets comptes définis par défaut (dont celui de l'utilisateur "elastic" qui nous intéresse).

L'autre méthode permet de générer des comtpes "libres".

Pour la génération des mots de passe sur les comptes prédéfnis, ouvrez une console DOS (PowerShell) en mode Administrateur. 

Placez vous dans le dossier pricipal d'Elasticsearch (C:\elasticsearch-8.1.1  dans notre exemple)

Entrez ensuite la commande : 


./bin/elasticsearch-setup-passwords auto

Le script générera des mots de passe pour différentes applications dont Elasticsearch

Elastic-Auth2

A l'issue de l'exécution, vous aurez alors pour l'utilisateur par défaut "elastic" le mot de passe généré automatiquement.

Il faudra ensuite dans les "Préférences Globales" de QALITEL doc renseigner ces différentes informations.

 

1.6. En cas d'erreurs rencontrées... 

Si vous rencontrez des erreurs au démarrage d'Elasticsearch, reportez-vous à la F.A.Q. dédiée : cliquez ici

 

2. Paramétrage de QALITEL

Le paramétrage des modules OCR - Recherche plein texte au sein  de QALITEL se fait dans les "Préférences Globales" au niveau  du groupe "Archivage numérique".

Si vous n'avez pas activé la sécurisation dans Elasticsearch, laissez alors les champs "Identifiant Elasticsearch" et "Mot de passe Elasticsearch" vides

 

Elasti-QALITEL