Nom de domaine

Hai dovuto copiare manualmente i dati incollati dai tuoi PDF, fatture e altri documenti di scarico per quindi inserirli, quindi in un foglio di calcolo o in un database? Bene Releu?

Beh, ho una soluzione che ti farà risparmiare tempo prezioso! Questo si chiama Passeroed è un progetto open source che utilizza l’intelligenza artificiale per automatizzare l’estrazione dei dati.

Architettura Sparrow

Lo strumento è quindi in grado di analizzare i tuoi documenti ed estrarre automaticamente le sue informazioni importanti attraverso il suo architettura modulare tra cui diversi componenti specializzati:

  • Sparrow spruzzato : Il cuore del sistema che utilizza i modelli di visione LLM per comprendere il contenuto visivo
  • Sparrow OCR : Un servizio di riconoscimento dei personaggi efficiente
  • Sparrow ML LLM : Il motore principale che gestisce gli agenti di intelligenza artificiale
  • Sparrow Ui : Un’elegante interfaccia grafica per pilotare tutto

Ciò che rende il Sparrow particolarmente interessante è soprattutto la sua capacità di adattarsi alle tue esigenze. Puoi usarlo localmente sul tuo Mac con MLX o optare per una versione cloud con GPU più potenti.

Per iniziare a usare Sparrow, ecco i passaggi:

  1. Installazione dell’ambiente Python:
# Installer pyenv d'abord (si ce n'est pas déjà fait)
# Puis créer un environnement virtuel Python
pyenv install python
python -m venv venv
source venv/bin/activate # Sur Unix/Mac
# ou
.\venv\Scripts\activate # Sur Windows
  1. Clona il deposito del passero:
git clone https://github.com/katanaml/sparrow.git
cd sparrow
  1. Installazione delle dipendenze:
# Installer les requirements selon l'agent que vous souhaitez utiliser
pip install -r requirements.txt
  1. Inizia l’API:
python api.py
# Ou sur un port spécifique :
python api.py --port 8001
  1. Per accedere all’interfaccia Web (UI Sparrow):

L’interfaccia sarà accessibile all’indirizzo:

http://127.0.0.1:8000/api/v1/sparrow-llm/docs

Per usare Sparrow spruzzato con il backend locale MLX:

./sparrow.sh "[votre_schema_json]" \
--agent "sparrow-parse" \
--debug \
--options mlx \
--options mlx-community/Qwen2-VL-72B-Instruct-4bit \
--file-path "/chemin/vers/votre/fichier"

Sparrow Ui

Ora prendiamo un esempio pratico: l’estrazione dei dati da un estratto conto bancario. Con una semplice richiesta API, Sparrow può analizzare il documento ed estrarre automaticamente:

  • Informazioni sull’account
  • L’equilibrio
  • Storia delle transazioni
  • Totali

Tutto strutturato correttamente in JSON, pronto per essere integrato nelle applicazioni. Non c’è bisogno di strapparti i capelli con regolari espressioni bancarie!

Ecco un esempio di ordine per elaborare un documento:

curl -X 'POST' \
'http://127.0.0.1:8000/api/v1/sparrow-llm/inference' \
-H 'accept: application/json' \
-H 'Content-Type: multipart/form-data' \
-F 'query=[{"description":"str","amount":0}]' \
-F 'agent=sparrow-parse' \
-F 'options=mlx,mlx-community/Qwen2-VL-72B-Instruct-4bit' \
-F 'debug=false' \
-F 'sparrow_key=' \
-F '[email protected];type=application/pdf'

Ciò che distingue davvero il passero dalle altre soluzioni è soprattutto:

  • Suo flessibilità : compatibile con diversi tipi di documenti (fatture, dichiarazioni, moduli, ecc.)
  • Suo architettura modulare : ogni componente può essere usato in modo indipendente
  • Il suo prestazione : trattamento rapido anche su attrezzature modeste
  • Suo Open source : codice sorgente accessibile e modificabile

E per le aziende con un fatturato inferiore a $ 5 milioni (che è attualmente il mio caso, Lool), Sparrow è persino utilizzabile per uso commerciale.

Ecco & mldr; Se vuoi sperimentare con Sparrow, ti invito a testare il Demo online. Sarai in grado di avere un’idea concreta delle sue abilità prima di installarle.

Grazie a Letsar per questa superba scoperta!

Fonte


Source link

Categorized in: