regex on Nicola Iarocci

Introduzione alle Regular Expression – Terza Parte

Thu, 03 Mar 2011 00:00:00 +0000

Benvenuto alla terza e ultima parte della nostra Introduzione alle Regular Expression. Concluso il capitolo sarai in grado di affrontare la maggior parte dei problemi di ricerca nel testo. Se ancora non l’hai fatto ti consiglio di leggere la Prima Parte e la Seconda Parte. Ricorda che puoi usare la pagina di prova per testare le query della guida.

Avidità

Il problema della avidità degli operatori regex diventa evidente quando si comincia a lavorare su ricerche avanzate. Un caso tipico è il parsing di file XML o HTML.

questo è un paragrafo

Supponiamo di voler trovare tutti i tag usati.

<.*> # cerca tutti i tag

Il risultato della query non è quello che ci si potrebbe aspettare. L’operatore * è avido, ovvero cerca di catturare più caratteri possibili. Una volta trovato il primo < prosegue avidamente selezionando tutto fino all’ultimo >. In questo caso vogliamo che si fermi al primo >, non all’ultimo. E’ questa una distinzione importante, da comprendere a fondo. Possiamo disattivare il comportamento avido aggiungendo il carattere?

<.*?> # ora otteniamo quel che vogliamo (niente avidità)

Se desideriamo usare l’operatore + (1 o più) al posto del * (zero o più), la nostra query diventa <.+?>.

Confini

Nella seconda parte del nostro tutorial abbiamo convalidato un numero telefonico nel formato 555-12345678

555-\d{8}   # 555- seguito da 8 cifre

Anche se tecnicamente corretta questa query non è perfetta. Se la testiamo con queste stringhe:

testoDavanti 555-12345678
555-12345678 il mio telefono

scopriamo che vengono accettate perché la regola 555-\d{8} è ancora valida. In realtà noi desideriamo accettare il solo il numero telefonico, niente altro. La soluzione richiede l’uso degli operatori di confine:

^555-\d{8}$

I confini sono caratteri speciali perché non occupano spazio. Sono dei segnaposto che servono a delimitare il testo da cercare. Dopo l’inizio (^) deve esserci il nostro numero di telefono; prima della fine ($) deve esserci il nostro numero di telefono.


  significato


  Inizio del testo. Sfortunatamente gli inventori di regex hanno scelto lo stesso carattere usato per la negazione. E’ importante riconoscerne il significato in base al contesto. Quando non è compreso tra [ e ] il carattere ^ è un confine e indica l’inizio del testo.


  fine del testo

Quindi

a   #  trova qualunque a
^a  #  trova solo il testo che comincia per a
a$  #  trova solo il testo che finisce per a

C’è un altro confine, quello di parola (\b). Vediamo un esempio. Vogliamo cercare le parole “for” e “she” nella nostra pagina di test.

(for|she)  # trova for e she

Non va male. Trova tutte le occorrenze di “she” e “for”, tuttavia viene selezionata anche la parola “before”. Non è il comportamento desiderato. Potremmo tentare cercando solo le occorrenze precedute e succedute da uno spazio.

[ ](for|she)[ ]  # cerca for o she

Va meglio. Non seleziona più before. Abbiamo però un nuovo problema. Nel testo c’è la frase “for she had plenty of time”. La nostra regex non ha individuato la parola “she” contenuta nella frase. Per quale motivo?

for she had plenty of time

Con il “for” iniziale abbiamo già rintracciato lo spazio che precede “she”, che quindi viene escluso. Sono queste le situazioni un cui un confine di parola può risolvere il problema.

\b(for|she)\b  # trova she oppure for

Il confine \b definisce dove la parola comincia e finisce, proprio come succede con i confini visti prima. Abbiamo detto prima che i “confini non occupano spazio”. Nell’esempio qui sopra cerchiamo esattamente “for” o “she”. Non cerchiamo la stringa \b e questa non occupa alcuno spazio durante la ricerca, a differenza di quel che è successo quando abbiamo tentato di usare la [cornice]. E’ un dettaglio importate perché con tutti gli altri operatori regex ciò che è nella query “occupa spazio” e non può essere trovato di nuovo.

Il Finale: Ricerca e Sostituzione

Ce l’hai fatta! Sei arrivato in fondo. Congratulazioni. Il meglio arriva ora. Ricerca e sostituzione è senz’altro il mio argomento preferito. Qui la pagina di test non ci può aiutare, occorre qualche tipo di editor oppure una IDE (Eclipse/Notepad++/Wordpad).

Supponiamo di avere un file composto da 100 righe come queste

31-01-10_backup32
24-01-10_backup1
24-02-10_backup_mona
11-03-09_backup_lisa

Vogliamo correggere le date portandole dal formato europeo a quello americano (da gg-mm-aa a mm-gg-aaaa).

\d{2}-\d{2}-\d{2}_backup.*  // trova le nostre righe

Per ogni riga desideriamo sostituire aree specifiche quindi ricorriamo all’operatore di raggruppamento già visto nella seconda parte di questa guida.

(\d{2})-(\d{2})-(\d{2})_backup(.*)  // ci siamo

A questo punto tutto quel che dobbiamo fare è sostituire le righe trovate con

{Gruppo2}–{Gruppo1}-20{Gruppo3}_backup{Gruppo4}

Il che si traduce nella seguente espressione di sostituzione

\2-\1-20\3_backup\4

Facile no? Niente più lavori ripetitivi. La mia regola è: se un testo richiede la modifica di più di cinque righe è giunta l’ora di ricorrere alle regex. Potrebbe sembrare una esagerazione. Eppure un programmatore dovrebbe rifiutarsi per principio di ripetere manualmente un lavoro che può essere automatizzato.

Buona fortuna.

Questo articolo è una traduzione autorizzata di Regex Primer: Part 3. Ringrazio l’autore per il permesso accordatomi.

Introduzione alle Regular Expression – Seconda Parte

Sat, 26 Feb 2011 00:00:00 +0000

Questa è la seconda parte della serie Introduzione alle Regular Expression. Se non hai ancora letto la prima parte ti consiglio di farlo. Puoi usare la pagina demo per provare le query della guida.

Negazione [^]

Abbiamo già conosciuto la [cornice]. Una caratteristica importante di cui non abbiamo ancora parlato è la negazione. Supponiamo di voler cercare qualunque carattere eccetto la lettera a.

[^a] # trova b,c,d,e,f,\n .... qualunque carattere eccetto 'a'

La negazione si applica a tutti i caratteri della cornice in cui compare l’operatore ˆ. Non è possibile limitarla a solo alcuni.

[^0123456789] # trova qualunque carattere non numerico

Gli Alias

Ora siamo pronti per affrontare qualche esempio realistico di regular expression. Uno degli usi più frequenti delle regex è la convalida di Stringhe. Proviamo a verificare la correttezza di un ipotetico numero telefonico da esprimere nel formato 555-12345678. Di norma divideremmo l’input in due parti e proveremmo a convertirle in numeri. Ora tuttavia conosciamo le regex e possiamo sbrigarcela meglio.

555-[0-9]{7}

Fatto. Stiamo convalidando 555 seguito da un trattino seguito da 7 caratteri numerici. Possiamo essere addirittura più sintetici, vediamo come.

I range [0-9] e [a-z] sono talmente frequenti da saltar fuori continuamente, tanto che sono state create scorciatoie (alias) dedicate ai range più usati. Nel nostro caso ci torna utile \d, che sta per digit (carattere numerico) ed è semanticamente identico a [0-9].

555-\d{7} # identico a 555-[0-9]{7}

Gli alias non sono certo indispensabili, puoi ottenere gli stessi risultati usando la cornice in modo esteso. Tuttavia sono molto comodi.


  significato



  coorrisponde a


  digit (numero)



  [0-9]


  word (parola)



  [a-zA-Z0-9_]  Include il carattere underscore


  spazio, tab o newline



  [ \t\r\n]


  qualsiasi non numerico



  ^\d


  quasiasi non alfanumerico



  ^\w


  quasiasi ma non lo spazio



  ^\s

Suggerimento: nota come ad ogni alias ne corrisponde uno dal significato opposto, tutto in maiuscolo. Impara i primi tre per conoscerli tutti e sei.

Il Punto

Il punto è un alias un pò speciale. Ne parlo soprattutto perchè può capitare di notarlo nel codice scritto da altri. Il punto cerca tutto eccetto il new line (\n). Il problema è che il carattere new line non è lo stesso su tutte le piattaforme.

.   # trova tutti i caratteri
.*  # equivalente a [^\n], trova tutti i paragrafi

Il punto spesso crea confusione. Consiglio di ricorrere a combinazioni di alias e cornici per ottenere gli stessi risultati senza rischiare errori.

Escaping

Capita a volte di dover cercare proprio il punto, oppure i caratteri [ o ]. Poiché fanno parte della sintassi regex in questi casi è necessario riccorrere all’escaping, ovvero precederli col carattere \ che rappresenta l’escape. Per esempio

\.    # cerca il punto invece che tutto quanto
\*    # trova tutti gli asterischi
\\    # trova tutti gli escape

Raggruppamenti e OR

Torniamo alla convalida. Questa volta vogliamo verificare la validità di un indirizzo email. Prima di tutto stabiliamo le regole (semplificate) a cui una stringa deve attenersi per venire convalidata come indirizzo email: 1) il nome utente può contenere lettere, numeri, underscore e trattini ma deve cominciare con una lettera; 2) il dominio può contenere solo lettere seguite da un punto seguito da altre lettere. Quindi domain.fakecom è valido per noi

[a-z][\w-]*@[a-z]+\.[a-z]+

Presta attenzione all’escaping del punto! Un’altro dettaglio importante è il quantificatore + che abbiamo visto nel primo articolo di questa serie. Nel dominio infatti vogliamo almeno una lettera, non zero o più.

Supponiamo ora di voler aggiornare le regole in modo da convalidare solo i domini più importanti. Il nostro indirizzo email deve finire con com oppure net. Non possiamo risolvere questo problema con quel che abbiamo imparato finora. La nostra query regex dovrà ricorrere a due nuovi concetti, l’operatore OR e i gruppi.

[a-z][\w-]*@[a-z]+\.(com|net)

Vediamo l’OR all’opera

com|net  #  trova com oppure net
a|b|c    # lo stesso di [abc].

L’aggiunta delle parentesi () si rende necessaria per chiarire che non vogliamo trovare tutte le occorrenze della parte di regex alla loro sinistra. Se volessimo “Brad Pitt” oppure “Angelina Pitt”

Brad|Angelina Pitt  # trova sia 'Brad' che 'Angelina Pitt'
(Brad|Angelina) Pitt  # ora ci siamo!

Per un programmatore il concetto del raggruppamento (grouping) con le parentesi dovrebbe essere facilmente comprensibile. Di fatto possiamo combinarlo con altri operatori che già conosciamo

(dog)+   #  trova dog,dogdog,dogdogdog ...
java(bean)?    #  trova java o javabean

Conclusione

Questo conclude la seconda parte della guida. La prossima e ultima parte verrà pubblicata tra qualche giorno. Nel frattempo raccomando di giocare con la pagina demo per fare un pò di pratica.

E’ ora disponibile anche la terza parte di questo tutorial.

Questo articolo è una traduzione autorizzata di Regex Primer: Part 2. Ringrazio l’autore per il permesso accordatomi.

Introduzione alle Regular Expression – Prima Parte

Wed, 23 Feb 2011 00:00:00 +0000

Quando si tratta fare ricerche in blocchi di testo le regular expression (regex) sono la soluzione ideale. Come programmatore studiare le regex è stata una delle cose migliori che ho fatto per migliorare la mia produttività.

Valide in ogni linguaggio e indipendenti dalla piattaforma, le regex sono un investimento sempre valido. Java, JavaScript, Ruby, .Net, Python… le regex non cambiano.
Rendono ricerca e sostituzione del testo enormemente più potenti
Soddisfano pienamente il principio 80/20. Basta conoscerne il 20% per risolvere l'80% dei problemi.

Ho preparato una pagina di prova per testare le regex del tutorial. In alternativa è sempre possibile usare una IDE, praticamente tutte supportano le regular expressions.

Partiamo dalla [cornice]

La regex più semplice? Eccola:

bank

La quale cerca “bank”. Cambiamola leggermente, immaginiamo di voler cercare sia “bank” che “tank” nello stesso blocco di testo.

[bt]ank  // cerca sia bank che tank

La [cornice] rappresenta comunque 1 carattere. Stiamo ancora cercando una parola di 4 caratteri, ma il primo può essere “b” oppure “t”. I caratteri inclusi nelle parentesi [] sono legati da una relazione di tipo OR. La loro posizione è irrilevante, [tb]ank è semanticamente identico. Ecco altri esempi d’uso della [cornice]:

[abc]1              // trova a1, b1 o c1
[cba]1              // trova a1, b1 o c1
file[0123456789]    // trova file0,file1,file2 ... o file9
file[0-9]           // trova file0,file1,file2 ... o file9
[a-z]               // trova a, b, c oppure ... z

Avrai notato che abbiamo introdotto un nuovo operatore. Usando il carattere - definiamo un range. Il range ci permette di evitare costrutti assurdamente lunghi come questo: [abcdefghijklmnopqrstuvwyz]. E’ una scorciatoia.

Proseguiamo coi Quantificatori

Riprendiamo dall’esempio iniziale. Immaginiamo di voler trovare tank, bank, tanks, e banks. Potremmo provare in questo modo:

[bt]anks?

Abbiamo aggiunto il quantificatore ? che agisce sul carattere che si trova direttamente alla sua sinistra. Significa una occorrenza oppure nessuna, quindi nel nostro caso stiamo dicendo “cerca [bt]ank con una ’s’ finale o meno”. Un quantificatore può essere affiancato a qualunque carattere e addirittura a una [cornice]. Dai una occhiata a questi esempi:

[bt]anks         // trova banks o tanks
[bt]anks?        // trova bank, tank, banks oppure tanks
[bt]?ank         // trova bank, tank oppure ank
ab?c?            // trova a, ab, abc oppure ac

Riassumendo, quando usiamo un carattere senza quantificatore indichiamo che ne cerchiamo una singola occorrenza. Quando aggiungiamo un quantificatore cambia il numero di occorrenze che vogliamo trovare. Nella tabella seguente trovi l’elenco dei quantificatori disponibili:


  significato



  regex



  esempio


  zero o 1



  abc?



  ab, abc


  zero o più



  abc*



  ab,abc,abcc,abccc,abcccc,… etc


  uno o più



  abc+



  abc,abcc,abccc,abcccc,…etc


  esattamente n volte



  abc{2}



  abcc


  da n a m volte



  abc{2,3}



  abcc,abccc

Concludendo

Abbiamo appreso la sintassi base che ci consente di fare un pò di pratica. E’ una buona idea fare quale esperimento in una IDE oppure sulla pagina demo.

La seconda parte di questa guida è ora pubblicata.

Questo articolo è una traduzione autorizzata di Regex Primer: Part 1. Ringrazio l’autore per il permesso accordatomi.