Nom de domaine

Quindi siamo nel 2025 e ci sono ancora persone che usano CSV come fonte di dati. No ma “Allo cosa“Come abbiamo detto nel 2013!

Se sei uno sviluppatore, un data scientist o solo qualcuno che sta lottando con tonnellate di dati “tabulari”, questo articolo ti farà risparmiare ore della tua vita, perché 10 GB di CSV in Excel, beh quel crash! Anche con il tuo script Python, può anche piegare un po ‘se non si effettua alcuna ottimizzazione particolare.

Allora cosa fare ???

Bene, è tempo di eliminare l’artiglieria pesante andando a Xanuno strumento sviluppato in ruggine e ottimizzato per il sistema operativo che ti consentirà di elaborare, filtrare e trasformare le tue tonnellate di dati in pochi secondi in cui altri strumenti rendono l’anima istantaneamente. Immagina un po ‘, cosa fa Panda in 30 secondi, Xan lo fa in 3 secondi, tutto consumando 10 volte meno memoria!

visualizzazione

Il comando XAN View trasforma il tuo terminale in un’interfaccia di dati elegante e funzionale.

Quindi, naturalmente, succede nel terminale, sotto macOS, Windows e Linux e come altri strumenti dello stesso stile come Octosql E Mugnaioti fornirà molti servizi. Perché sì, Xan, che è stato sviluppato dal Medialab di Science PO è un Forcella di XSV Completamente riprogettato per le esigenze specifiche delle scienze sociali e dell’analisi dei dati web.

correlazione

Sì, è un grafico di correlazione generato direttamente nel tuo terminale. Magia!

Ecco i principali controlli dello strumento:

  • Xan View : Anteprima dei dati nel terminale
  • Filtro XAN : filtraggio di linea in base a una condizione
  • XAN Map : Creazione di nuove colonne
  • Xan esce : Smorting di dati
  • XAN unisciti : Giunto del file CSV
  • Statistiche di Xan : statistiche descrittive
  • Frequenza xan : tabelle di frequenza
  • Xan Hist : istogrammi nel terminale
  • Xan Depup : Sviluppare un file
  • XAN Transform : per apportare modifiche al testo (ad esempio il passaggio in un minuscolo di alcuni dati e MLDR;)
  • Xan riempimento : Riempire con zero o altro, luoghi del CSV in cui i valori sono assenti
  • & mldr; ecc & mldr; O più di 50 ordini in totale copre quasi tutte le esigenze relative ai CSV e all’analisi dei dati.

serie

Analizza le serie temporali direttamente nel tuo terminale, senza una singola riga di matplotlib

L’interesse come ti ho detto è che Xan può gestire enormi file con poca memoria grazie in particolare a una parallelizzazione automatica intelligente dei trattamenti. Per darti un’idea, in cui uno script Panda standard consumerebbe 4 GB di RAM per elaborare un file CSV da 1 GB, XAN può svolgere lo stesso compito con solo 100 MB di memoria.

Per installarlo, nulla potrebbe essere più semplice, ci sono comandi per tutte le ossa, ma il meglio è ancora da fare su PC (Linux, Windows):

O sotto macOS:

mappa termica

Una mappa di calore degna di una visualizzazione D3.jsma generato interamente nel tuo terminale

Xan ha anche il suo linguaggio di espressione battezzato Moonblade (dal nome della spada magica di Xan nel cancello di Baldurgli intenditori riconosceranno & mldr;). È una sintassi a metà strada tra Python e JavaScript, che consente di trattare facilmente il CSV.

Ecco alcuni esempi concreti:

  • Filtraggio ::: xan filter 'count > 10' data.csv
  • Trasformazione ::: xan transform name 'upper(name)' data.csv
  • Calcolo ::: xan map 'tweet_count / retweet_count' ratio data.csv
  • Aggregazione::: xan agg 'sum(retweet_count), mean(retweet_count)' data.csv

multipli piccoli

“Multipli piccoli” come direbbe Tufte, generato in un batter d’occhio nel tuo terminale

Ciò consente a XAN di essere pilotato nei programmi, senza la necessità di installare una lib. Ed è altrettanto ottimizzato! Ci sono anche funzioni per trattare tutto ciò che è date, stringhe di personaggi, URLS & MLDR; ecc. Usando i tubi unix per i controlli a catena, sarai il maestro del mondo!

Per darti un esempio concreto, ecco come analizzare rapidamente un database multimediale:

# Télécharger un jeu de données d'exemple
curl -LO https://github.com/medialab/corpora/raw/master/polarisation/medias.csv

# Explorer rapidement le fichier
xan headers medias.csv
xan count medias.csv
xan view medias.csv

# Quelques analyses basiques
xan stats -s indegree,foundation_year medias.csv
xan frequency -s edito medias.csv | xan hist

# Filtrer et transformer
xan filter 'foundation_year > 2000' medias.csv > recents.csv
xan map 'fmt("{} ({})", name, foundation_year)' display_name recents.csv > result.csv

Breve, Un altro ottimo strumento che ti farà risparmiare serio ! Usalo ad esempio negli script Python o integralo nelle pipeline di elaborazione dei dati, non rimarrai deluso! Anche la documentazione è ance !


Source link

Categorized in: