Data Cleansing con STK/Unit

L’importanza del Data Cleansing

Un’ovvietà: i dati rappresentano un valore per le aziende.

Un’altra ovvietà: se però non sono corretti sono rappresentano un valore negativo, o almeno “rumore” che distrae dalle informazioni esatte. Sono un valore negativo se spingono il marketing a prendere decisioni sbagliate, sono semplice rumore se le mail di alcuni clienti non sono registrate correttamente.

I motivi per cui un database aziendale può contenere (e contiene) dati parzialmente errati sono molteplici. Vanno dalla pagina di registrazione del sito che accetta come numero di telefono '012345' alla segretaria stanca che ha sbagliato a digitare un nome in un foglio Excel, passando per i bug dei programmi e per i caratteri cirillici gestiti male.

I database, certo, hanno i vincoli di integrità. Ma li hanno se vengono effettivamente usati, ed errori umani permettendo. Parliamo in particolare di MariaDB e MySQL. Fino a poco tempo fa le tabelle erano MyISAM per default, e questa libreria non supporta le chiavi esterne. Del resto le applicazioni open source più diffuse (vuoi per evitare problemi di compatibilità, vuoi per negligenza) se anche usano InnoDB in genere non definiscono le chiavi esterne, tanto meno TRIGGER che mettano al riparo da interventi esterni avventati.

E’ allora indispensabile, per molte aziende, effettuare periodicamente una pulizia dei dati: il Data Cleansing, o Data Cleaning.

Il ruolo di STK/Unit

Per quanto possa sembrare strano, STK/Unit (uno strumento per lo Unit Test di cui ho già parlato in questo blog) è adatto a una prima fase di identificazione degli errori. In effetti uno Unit Testing framework non fa altro che controllare l’esattezza di una serie di unità. Se lo strumento in questione di muove nei database relazionali, può assumere come unità le righe delle tabelle, o insiemi di righe relazionate fra loro. Le asserzioni possono controllare la coerenza di questi dati. Per identificare le righe problematiche, è sufficiente che i messaggi relativi ai Fail contengano il valore della chiave primaria.

Esempio

Supponiamo di avere una tabella customer che contiene i dati dei clienti dell’azienda. Su ognuno di questi dati si potrebbe effettuare almeno un controllo banale (è chiaro che '012345' non è un numero di telefono), ma in questo articolo ci concentreremo sulla Partita IVA. Questa esiste in tutto il mondo sotto il nome anglosassone VAT, ma noi la valideremo secondo le regole specifiche italiane.

Validare una Partita IVA

La prima cosa da fare è creare una Stored Function che accetta in input una stringa e restituisce TRUE se si tratta di una partita IVA italiana valida, FALSE se non è valida, NULL se riceve in input NULL (per coerenza con le funzioni builtin di MySQL e MariaDB). E’ molto comodo, per produrre codice più leggibile, avere anche una funzione char_at() che restituisce un singolo carattere preso da una stringa. Servirà, probabilmente, ogni volta che vi troverete a creare una funzione per la validazione dei dati. Naturalmente, anche se dovremmo scrivere queste funzioni, in realtà non lo faremo: le trovate già pronte, qui di seguito :)

CREATE DATABASE IF NOT EXISTS `it_validation`;
USE `it_validation`;
    
DROP FUNCTION IF EXISTS `char_at`;
CREATE FUNCTION char_at(haystack TEXT, num TINYINT SIGNED)
    RETURNS CHAR(1)
    LANGUAGE SQL
    DETERMINISTIC
    NO SQL
    COMMENT 'Return num-th char from haystack. num starts from 1 and can be negative'
BEGIN
    IF haystack IS NULL OR num IS NULL THEN
        RETURN NULL;
    ELSE
        RETURN (SELECT SUBSTRING(haystack FROM num FOR 1));
    END IF;
END;
    
DROP FUNCTION IF EXISTS `is_vat`;
CREATE FUNCTION is_vat(vat CHAR(50))
    RETURNS BOOL
    LANGUAGE SQL
    DETERMINISTIC
    NO SQL
    COMMENT 'Return wether vat is valid italian VAT number, NULL if is NULL, else FALSE'
BEGIN
    -- current character
    DECLARE cur_char    TINYINT UNSIGNED DEFAULT NULL;
    -- input length
    DECLARE vat_len     TINYINT UNSIGNED DEFAULT 1;
	-- pointer to current char
    DECLARE i           TINYINT UNSIGNED DEFAULT 1;
    -- sub-sums of digits from vat
    DECLARE x           TINYINT UNSIGNED DEFAULT 0;  -- sum of odd nums
    DECLARE y           TINYINT UNSIGNED DEFAULT 0;  -- sum of even nums
    DECLARE z           TINYINT UNSIGNED DEFAULT 0;  -- sum of even nums > 4
    -- computed on sub-sums, must be 0
    DECLARE valid       TINYINT UNSIGNED DEFAULT 0;
    
    IF vat IS NULL THEN
        RETURN NULL;
    END IF;
    
    SET vat_len = CHAR_LENGTH(vat);
    
    -- too short?
    IF vat_len  11 THEN
        RETURN FALSE;
    END IF;
    
    -- get sub-sums
    WHILE i  4 THEN
                SET z = z + 1;
            END IF;
        ELSE
            SET x = x + cur_char;
        END IF;
        
        -- increment index
        SET i = i + 1;
    END WHILE;
    
    -- check digit
    SET valid = 10 - ((x + (y * 2) + z) MOD 10) MOD 10;
    -- if check digit is 10, treat as 0
    RETURN (IF(valid = 10, 0, valid) = CAST(`it_validation`.char_at(vat, 11) AS UNSIGNED INTEGER));
END;

Testiamo la validazione…

Il codice va sempre testato, e il codice che trovate su questo blog non fa eccezione. Siccome stiamo parlando di STK/Unit, appare naturale usarlo anche per testare chat_at() e is_vat():

CREATE DATABASE IF NOT EXISTS `test_it_validation`;
USE `test_it_validation`;
    
DROP PROCEDURE IF EXISTS `test_char_at`;
CREATE PROCEDURE test_char_at()
    LANGUAGE SQL
    COMMENT 'Test char_at()'
BEGIN
    DECLARE haystack CHAR(50) DEFAULT 'miles davis';
    CALL `stk_unit`.assert_null(`it_validation`.char_at(NULL, 1),
        'If any arg is NULL, result should be NULL');
    CALL `stk_unit`.assert_null(`it_validation`.char_at(haystack, NULL),
        'If any arg is NULL, result should be NULL');
    CALL `stk_unit`.assert_equals(`it_validation`.char_at(haystack,  0), '',
        'If num = 0, result should be empty string');
    CALL `stk_unit`.assert_equals(`it_validation`.char_at(haystack,  3), 'l',
        'Incorrect char');
    CALL `stk_unit`.assert_equals(`it_validation`.char_at(haystack, -3), 'v',
        'Incorrect char');
END;
    
DROP PROCEDURE IF EXISTS `test_is_vat`;
CREATE PROCEDURE test_is_vat()
    LANGUAGE SQL
BEGIN
    CALL `stk_unit`.assert_null(`it_validation`.is_vat(NULL),
        'If arg is NULL, should return NULL');
    CALL `stk_unit`.assert_false(`it_validation`.is_vat('123'),
        'Code is too short');
    CALL `stk_unit`.assert_false(`it_validation`.is_vat('012345678912'),
        'Code is too long');
    CALL `stk_unit`.assert_false(`it_validation`.is_vat('12345678901'),
        'This code is not valid');
    CALL `stk_unit`.assert_true(`it_validation`.is_vat('05985341006'),
        'This code is valid');
    CALL `stk_unit`.assert_true(`it_validation`.is_vat('02826010163'),
        'This code is valid');
    CALL `stk_unit`.assert_true(`it_validation`.is_vat('01785490408'),
        'This code is valid');
    CALL `stk_unit`.assert_true(`it_validation`.is_vat('07643520567'),
        'This code is valid');
END;

Per eseguire il Test Case e avere la conferma che quelle due funzioni sono buone, ci basta una semplice istruzione:

CALL `stk_unit`.`tc`('test_it_validation');

Pulire i dati!

Dopo tutti questi preamboli, siamo arrivati al nocciolo della questione: la procedura di Data Cleansing. Il concetto è molto semplice: creiamo un Test Case, e al suo interno un Base Test che esegue un ciclo su una tabella; per ogni riga, il test asserisce che la partita IVA è valida:

CREATE DATABASE IF NOT EXISTS `test_gest`;
USE `test_gest`;
    
DROP PROCEDURE IF EXISTS `test_customer_piva`;
CREATE PROCEDURE test_customer_piva()
    LANGUAGE SQL
    COMMENT 'Test an_anagrafiche.piva'
BEGIN
    -- end of results
    DECLARE `eof` BOOLEAN DEFAULT FALSE;
    -- invalid value
    DECLARE `wrong_piva` TEXT DEFAULT NULL;
    -- id of invalid row
    DECLARE `wrong_id` MEDIUMINT UNSIGNED DEFAULT NULL;
    
    -- read table. but if piva is not mandatory,
    -- we want to exlude empty strings and/or NULLs
    DECLARE `crs_piva` CURSOR FOR
        SELECT `id`, `piva`
            FROM `gest`.`customer`
            WHERE `piva` IS NOT NULL AND `piva` > '';
    
    DECLARE CONTINUE HANDLER
        FOR NOT FOUND
        SET `eof` = TRUE;
    
    -- loop on found rows
    OPEN `crs_piva`;
    `lp_piva`:
    LOOP
        FETCH NEXT FROM `crs_piva`
            INTO `wrong_id`, `wrong_piva`;
        
        IF `eof` IS TRUE THEN
            LEAVE `lp_piva`;
        END IF;
        
        -- trigger a pass if piva is valid, or a fail if its invalid.
        -- failure comment is the if of the wrong row, so we'll be
        -- able to identify it
        CALL `stk_unit`.`assert_true`(`it_validation`.`is_vat`(`wrong_piva`), `wrong_id`);
    END LOOP;
    CLOSE `crs_piva`;
END;

Per eseguire questo test:

CALL stk_unit.tc('test_gest');

E adesso?

Supponendo che abbiate creato la tabella customer contenente almeno i campi id e piva, l’abbiate popolata, e abbiate eseguito il test, ora vi trovate davanti un report di questo genere:

Test Case: test_gest
Id: 11
Completed: YES
198 passes, 2 fails, 0 exceptions
 
FAIL: `test_gest`.`test_customer_piva` [1] - 50
FAIL: `test_gest`.`test_customer_piva` [2] - 100

Questo report ci informa che 198 record hanno passato il test, e quindi hanno una partita IVA valida o non hanno affatto una partita IVA; ma 2 record hanno fallito, perché hanno una partita IVA non valida. Le righe problematiche sono quelle con id 50 e 100. La domanda è: ora che lo sappiamo, cosa facciamo?

Questa decisione va presa in base a diversi fattori. Comunque, nei casi più semplici, vogliamo semplicemente eliminare le righe contenenti dati non validi, o impostare a NULL i campi non validi, o stampare una lista di nominativi a cui sono associati dei dati non validi.

Naturalmente nel primo caso ci serve una DELETE, nel secondo caso una UPDATE, e nel terzo caso una SELECT; ma il principio è esattamente lo stesso. Per semplificare al massimo, consideriamo il caso in cui vogliamo eliminare i dati non validi. Come facciamo?

I risultati dei test si trovano nel database `stk_unit`, e precisamente nella tabella `test_results`. Supponendo che nessuno possa aver eseguito un test dopo di noi, per semplificare ulteriormente, possiamo servirci della vista `last_test_results_bad`, che contiene solo i test falliti durante l’esecuzione dell’ultimo Test Case:

SELECT `msg` FROM `stk_unit`.`last_test_results_bad`;

Nel mio caso, ottengo gli id 50 e 100.

Completiamo l’esempio:

DELETE FROM `customer` WHERE `id` IN
    (SELECT `msg` FROM `stk_unit`.`last_test_results_bad`);

Aggiungere una assert

Supponiamo di aver a che fare con diverse aziende, e di voler essere in grado di eseguire simili test con tutti i nostri clienti. Le aziende alle quali offriamo consulenza utilizzano gestionali diversi, perciò non è possibile riciclare il Test Case `test_gest`. Però possiamo generalizzare una parte del codice che abbiamo scritto, aggiungendo una procedura assert. La useremo al posto di stk_unit.assert_true(), e si chiamerà stk_unit.assert_is_it_vat(). Genererà un Pass ogni volta che le viene passata una partita IVA italiana valida, e un Fail ogni volta che le verrà passato un dato di altro genere.

Ecco come fare:

DROP PROCEDURE IF EXISTS `assert_is_it_vat`;
CREATE PROCEDURE assert_is_it_vat(IN val TEXT, IN msg CHAR(255))
    LANGUAGE SQL
    COMMENT 'Assert that val is valid italian VAT'
BEGIN
    IF `msg` IS NULL THEN
        SET `msg` = CONCAT('Param 1 expected to be a valid Italian VAT; Received: ', `stk_unit`.`ns_str`(`val`));
    END IF;
    CALL `stk_unit`.`assert`(`it_validation`.`is_vat`(val), `msg`);
END;

Il primo parametro è il valore che ci si aspetta sia una partita IVA valida. Il secondo è il messaggio di errore da registrare nel caso in cui non lo sia. Nell’esempio visto prima, il messaggio di errore era semplicemente l’id della riga contenente dati non validi.

Come prima cosa, impostiamo un messaggio di errore di default, da usare nel caso in cui venga passato NULL. Non è obbligatorio, ma è buona norma farlo nelle procedure assert – anche per coerenza con le assert predefinite di STK/Unit.
Dopo, non facciamo altro che chiamare una procedura assert() di livello più basso, che non dovrebbe mai essere chiamata direttamente dai Test Case. Le passiamo il risultato della validazione (ottenuto chiamando it_validation.is_vat()) e il messaggio di errore (che potrebbe essere quello di default).
Questo è sufficiente per avere a disposizione una nuova assert, che si può usare esattamente come prima abbiamo usato assert_true().

Si può inserire questa procedura in qualsiasi database, ma è meglio evitare di inserirla nel database stk_unit per evitare possibili conflitti nelle versioni future. Meglio invece creare un database che funge la libreria personalizzata di assert. Chi facesse questo, è fortemente incoraggiato a contattarmi per condividere le sue librerie!

Divertitevi!

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...