Nom de domaine

Un po ‘come Gigningest Di cui ti stavo parlando l’ultima volta, il che ti permette di prendere un deposito GIT e renderlo una versione vivabile da parte dell’LLMS (AI), vorrei presentarvi oggi.

Il concetto è quasi identico, tranne per il fatto che A consente formati come PDF, Word, PowerPoint, Excel, Images, HTML, ASCIIDOC, Markdown & MLDR; E il più forte è che mantiene persino le immagini, integrate o referenziate.

Elaborazione del docling

Ora ciò che rende speciale il downling è la sua capacità analizzare in modo intelligente La struttura dei documenti. Prendi un PDF per esempio: invece di far oscillare un blocco di testo grezzo senza coda o testa, il doching rileva automaticamente:

  • Il layout e l’ordine di lettura
  • La struttura delle tabelle
  • Titoli e sottotitoli
  • Metadati (autori, riferimenti, lingua & mldr;)
  • Elementi distinti come intestazioni e piedi

E se si sviluppano applicazioni basate sull’intelligenza artificiale, il Docling sarà in grado di integrarsi perfettamente con quadri popolari come Langchain,, Llamandex,, Crew AI E Pagliaio. Non c’è bisogno di armeggiare per ore per collegare i tuoi strumenti! Ci sono molti esempi concreti di integrazione nel Documentazione ufficiale.

E l’installazione è il gioco per bambini:

pip install docling

E per l’uso, è altrettanto semplice:

from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869" 
converter = DocumentConverter() 
result = converter.convert(source)
print(result.document.export_to_markdown())

Inoltre, il Docling non è contento di convertire stupidamente i tuoi documenti che impiega caratteristiche davvero pratiche come:

  • Riconoscimento del testo (OCR) per PDF scansionati
  • L’estrazione di equazioni matematiche
  • Rilevamento del codice sorgente
  • Un’interfaccia della riga di comando per usi rapidi
  • Supporto multipiattaforma (Windows, Mac, Linux, X86_64 e ARM64)

Sviluppato da IBM, il Docling è open source sotto licenza MIT e gli aggiornamenti sono regolari e portano costantemente nuove funzionalità.

Non esitare a testare tu stesso perché questo strumento potrebbe benissimo diventare essenziale nella tua cassetta degli attrezzi Dev

Scopri Docling su Github


Source link

Categorized in: