Un po ‘come Gigningest Di cui ti stavo parlando l’ultima volta, il che ti permette di prendere un deposito GIT e renderlo una versione vivabile da parte dell’LLMS (AI), vorrei presentarvi oggi.
Il concetto è quasi identico, tranne per il fatto che A consente formati come PDF, Word, PowerPoint, Excel, Images, HTML, ASCIIDOC, Markdown & MLDR; E il più forte è che mantiene persino le immagini, integrate o referenziate.
Ora ciò che rende speciale il downling è la sua capacità analizzare in modo intelligente La struttura dei documenti. Prendi un PDF per esempio: invece di far oscillare un blocco di testo grezzo senza coda o testa, il doching rileva automaticamente:
- Il layout e l’ordine di lettura
- La struttura delle tabelle
- Titoli e sottotitoli
- Metadati (autori, riferimenti, lingua & mldr;)
- Elementi distinti come intestazioni e piedi
E se si sviluppano applicazioni basate sull’intelligenza artificiale, il Docling sarà in grado di integrarsi perfettamente con quadri popolari come Langchain,, Llamandex,, Crew AI E Pagliaio. Non c’è bisogno di armeggiare per ore per collegare i tuoi strumenti! Ci sono molti esempi concreti di integrazione nel Documentazione ufficiale.
E l’installazione è il gioco per bambini:
pip install docling
E per l’uso, è altrettanto semplice:
from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869"
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())
Inoltre, il Docling non è contento di convertire stupidamente i tuoi documenti che impiega caratteristiche davvero pratiche come:
- Riconoscimento del testo (OCR) per PDF scansionati
- L’estrazione di equazioni matematiche
- Rilevamento del codice sorgente
- Un’interfaccia della riga di comando per usi rapidi
- Supporto multipiattaforma (Windows, Mac, Linux, X86_64 e ARM64)
Sviluppato da IBM, il Docling è open source sotto licenza MIT e gli aggiornamenti sono regolari e portano costantemente nuove funzionalità.
Non esitare a testare tu stesso perché questo strumento potrebbe benissimo diventare essenziale nella tua cassetta degli attrezzi Dev
Source link
Subscribe to our email newsletter to get the latest posts delivered right to your email.
Comments