Studi Trentini di Scienze Naturali - Acta Biologica 0542 v. 78 (1) (2001), pp. 201-206, Trento 2002 ISSN 0392- Relazioni tra specie di Ditteri Chironomidi e fattori ambientali esaminate con un data base relazionale BRUNO ROSSARO, VALERIA LENCIONI, CARLOTTA CASALEGNO ABSTRACT - ROSSARO B., LENCIONI V., CASALEGNO C . , 2002 - Relazioni tra specie di Ditteri Chironomidi e fattori ambientali esaminate con un data base relazionale. [Species environmental data relationships (Diptera Chironomidae) processed using a relational database]. Studi Trent. Sci. Nat., Acta Biol., vol 78 (1), pp. 201-206. Criteria useful to file and manage a naturalistic database (slide collection of Diptera Chironomidae from the Holarctic region) are described. Different filing and transformation methods are presented, from DOS text editor, DB3PLUS program, Microsoft EXCEL to Microsoft ACCESS. The use of FORTRAN routines and VISUAL BASIC modules to transform data as required by specific multivariate analysis is emphasised. PAROLE CHIAVE: database relazionale, analisi multivariata, Chironomidae. KEY WORDS: relational database, multivariate analysis, Chironomidae. Carlotta Casalegno, Bruno Rossaro - University degli Studi di Milano, Dipartimento di Biologia, Sezione di Ecologia, Via Celoria 26, 1-20133 Milano, e-mail: <rossaro@mailserver.unimi.it>. Valeria Lencioni - Museo Tridentino di Scienze Naturali di Trento, Sezione di Idrobiologia e Zoologia degli Invertebrati, Via Calepina 14, 1-38100 Trento. I1 tassonomo, 1'ecologo e lo zoogeografo dispongono di informazioni costituite da oggetti descritti mediante attributi (RossARO, 1989, 1990). Gli oggetti per il tassonomo sono le specie, per 1'ecologo gli ecosistemi, per lo zoogeografo le aree geografiche. Gli attributi per il tassonomo sono i caratteri, per l'ecologo le variabili ambientali o i taxa, per lo zoogeografo i taxa. Oggetti e attributi possono essere archiviati in database relazionali strutturati in record divisi in campi. Esistono diverse tecniche di archiviazione di dati naturalistici. In questo lavoro, come esempio di applicazione alla gestione di un archivio utile nell'ecologia delle acque interne, viene descritto un database relazionale the memorizza dati biologici con informazioni sui campioni di raccolta (Figg. la, lb). In particolare gli Autori vogliono mettere in evidenza vantaggi e svantaggi di sistemi di catalogazione di dati naturalistici con programmi in FORTRAN e VISUAL BASIC. 2. METODI I1 database fa riferimento alle collezioni di Chironomidi (Insecta, Diptera, Chironomidae) conservate presso it Dipartimento di Biologia dell'University degli Studi di Milano (circa 10000 vetrini) e presso it Museo Tridentino di Scienze Naturali di Trento (circa 2500 vetrini). La maggior parte del materiale e stato raccolto sul territorio nazionale, solo alcuni esemplari provengono da locality straniere (Austria, Francia, Belgio). Le specie identificate hanno distribuzione oloartica. I dati biologici e ambientali relativi a tali collezioni sono stati archiviati inizialmente utilizzando un editor di testo (editor di DOS, WORDSTAR) (RossARO, 1989), quindi furono convertiti mediante l'uso di programmi scritti in linguaggio BASIC in altri formati e poi archiviati usando it programma DB3PLUS. Successivamente, gli stessi dati sono stati importati in fogli di lavoro usando EXCEL di Microsoft BRUNO ROSSARO, VALERIA LENCIONI, CARLOTTA CASALEGNO 202 st_ 4_ siti ∞ c_ st4 c_ st3 staz _ 4 latit long altit st_ 3 bio specie ∞ c_ bio ∞ c_ spec c_ st4 c_ an c_ ms c_ gg c_ stad c_ ld ∞ valore ∞ ∞ ∞ c_ spec c_ gen specie phylo taxon autore codspe c_ ita _ gen c_ ita _ spe ∞ c_ st3 ∞ c_ st2 genere st_ 2 c_ st2 ∞ c_ st1 luogo_ dep c_ gen c_ trib genere c_ ld luogo_ dep tribu' st_ 1 c_ st1 ∞ c_ reg c_ trib tribu' stadio anno c_ stad stadio c_ an anno regioni c_ reg ∞ c_ biom biomi 1 ∞ c_ biom mese c_ mss mese giorno c_ gg giorno Fig. l a - Relazioni tra tabelle nel file ACCESS. 11 simbolo ~c (infinito) indica "relazione uno a molti"; ad esempio: "c_gen" appare una Bola volta nella tabella "genere" e molte volte nella tabella "specie". Per le spiegazioni dei singoli box si veda la figura lb. Fig. la - Relations between tables in the ACCESS , file. The symbol oc (infinity) means a "one to many relationship "; for example: "g_gen " is present only once in table "genere" and many times in table "specie". Explanations of boxes in figure lb. Office. In EXCEL i dati sono stati memorizzati in formato matrice, dove, nel caso di dati ecologici, i campioni corrispondono alle righe (record) e le variabili ambientali e/o le specie alle colonne (campi). Sono state cosi archiviate le informazioni riguardanti le specie, gli stadi metamorfici, le date di campionamento e 1'ambiente di raccolta (temperatura, conducibilita, ecc.). Con l'ausilio di programmi in FORTRAN e VISUAL BASIC le informazioni immagazzinate nei fogli di lavoro EXCEL sono state poi importate in tabelle del programma ACCESS, un pacchetto specializzato nella gestione di database di tipo relazionale. L'uso di queries, maschere e report consente di interrogare it database ed avere risposte mirate a specifici quesiti (es. distribuzione di una specie nello spazio e nel tempo, risposta della stessa a fattori ambientali, ecc.). In ACCESS, per costruire un database relazionale, e invece necessario avere i dati archiviati in formato lista, vale a dire con record formati da 3 campi: 1. gli oggetti (ovvero le righe della matrice, nel nostro caso i campioni); 2. gli attribute (ovvero le colonne, nel nostro caso le specie); RELAZIONI TRA SPECIE DI DITTERI CHIRONOMIDI E FATTORI AMBIENTALI ESAMINATE CON UN DATA BASE RELAZIONALE 203 "st 4_siti": c_st4 = contatore della stazione 4; c st3 = contatore della stazione 3; staz 4 = identifica un sito ad un 4° livello gerarchico (ad es. stazione lungo un flume); latit = latitudine; long: longitudine; altit = altitudine. "st_3": c_st3 = contatore della stazione 3; c_st2 = contatore della stazione 2; staz 3 = identifica un sito ad un 3° livello gerarchico (ad es. it nome di un flume). "st_2": c_st2 = contatore della stazione 2; c stl = contatore della stazione 1; staz_2 = identifica un sito ad un 2° livello gerarchico (ad es. provincia). c_stl = contatore della stazione 1; c_reg = contatore della regione; staz 1 = identifica un sito ad un 1° livello gerarchico (ad es. regione). "regioni": c reg = contatore delle regioni; c_biom = contatore dell'area geografica; reg = identifica una regione pin vasta (ad es. stato, Italia, Germania). "biom": c_biom = contatore dell'area geografica; biom = identifica una regione zoogeografica (ad es. paleartica). "bio": c bio = contatore di questa tabella; c_spec = contatore della specie; c_st4 = contatore della stazione 4; c a n = contatore dell'anno; c ms = contatore del mese; c_gg = contatore del giorno; valore = indica la presenza o 1'abbondanza di una specie. "specie": c_spec = contatore della specie; c_gen = contatore del genere; specie = identifica una specie; philo = e un numero the da la posizione della specie nella filogenesi; taxon = nome abbreviato della specie; autore = nome dell'autore; cod = codice della specie; c_ita_gen = numero del genere nella fauna d'Italia; c_ita_spe = numero della specie nella fauna d'Italia. "genere": c_gen = contatore del genere; c_trib = contatore della tribu; genere = identifica it genere. "tribu": c_trib = contatore della tribu; tribu = identifica la tribu. "anno": c_an = contatore dell'anno; anno = identifica 1'anno. "mese": c_ms = contatore del mese; mese = identifica it mese. "giorno": c_an = contatore del giorno; giorno = identifica it giorno. "stad": c stad = contatore dello stadio; stadio = larva, pupa, adulto. "luogo_dep": c_ld = contatore del luogo dove e depositato 1'esemplare; luogo_dep = luogo dove e depositato 1'esemplare (ad es. museo, universita, vetrini, alcool). Fig. lb - Spiegazioni relative alla figura 1 a. "st_4_siti ": c_st4 = counter of station 4; c_st3 = counter of station 3; staz_4 = identifies a site at a 4'" hierarchical level (i.e. station along a river); latit = latitude; long = longitude; altit = altitude. "st 3 ": c_st3 = counter of staz_3; c_st2 = counter of station 2; staz_3 = identifies a site at a 3' hierarchical level (i.e. river name). "st_2": c st2 = counter of staz_2; c s t l = counter of station I; staz_2 = identifies a site at a 2'" hierarchical level (i.e. province). c_stl = counter of staz_1; c_reg = counter of region; staz 1 = identifies a site at a I`" hierarchical level (i.e. region). "regioni": c_reg = counter of regions; c_biom = counter of geographic area; reg = identifies a wider region (i.e. country, Italy, Germany). " biom ": c_biom = counter of geographic area,. biom = identifies a zoogeographic region (i.e. palearctic). "bio ": c_bio = counter of this Table; c spec = counter of species; c_st4 =counter of station 4; can = year counter; c_ms = month counter; c_gg = day counter; value: species presence or abundance. "specie": c_spec = counter of species; c gen = counter of genus; specie = identifies a species; philo = gives species phylogenetic position; taxon = species code; autore = author name; cod = short species code; c_ita_gen = genus number in the Italian fauna; c_ita_spe = species number in the Italian fauna. "genere".. c gen = counter of the genus; c trib = counter of the tribe; genere = identifies a genus. " tribii": c_trib = counter of tribe; tribu = identifies tribe. "anno": can = year counter; anno = identifies year. "mese ": c_ms = month counter; mese = identifies month. °giorno ": can = day counter; giorno = identifies day. "stad": c_stad = stage counter; stadio = larva, pupa, adult. "luogo_dep": c_ld = counter of the site where the specimen is stored; luogo dep = site where the specimen is stored (i.e. museum, universities, slides, alcohol). Fig. lb - Explanations referred to figure la. 204 . BRUNO ROSSARO, VALERIA LENCIONI, CARLOTTA C Carica dati esterni A. Lista Matrice File.xls Mat out.inp Mat out.out Tabella ACCESS B. Lista Matrice CANOCO MULTIVARIANCE STATS MAT_OUT.FOR Out mat.out Salva come formattato Out mat.inp OUT_MAT.FOR Fig. 2 - Gestione del database con programmi FORTRAN. La sequenza operativa e spiegata nel testo.Fig. 2 - Database management using FORTRAN programs. The operational sequence is explained in the mat_out.mdb Tab:matrice Tab:lista C. Tab:campi D. Matrice mat_out.vbp mat_out.frm cod:mat_out Lista chiro00.mdb File:Out_mat.out Lista Frm:Bio_export Frm:out_mat Fig. 3 - Gestione del database con moduli VISUAL BASIC in ACCESS. La sequenza operativa e spiegata nel testo. Fig. 3 - Database management with VISUAL BASIC, forms in ACCESS. The operational sequence is explained in the text RELAZIONI TRA SPECIE DI DITTERI CHIRONOMIDI E FATTORI AMBIENTALI ESAMINATE CON UN DATA BASE RELAZIONALE 20 3. i valori corrispondenti ad un oggetto e ad un attributo (a una cella delta matrice) diversi da "Null". Grazie alto sviluppo di routine appropriate, i dati archiviati in ACCESS sono stati poi esportati in un formato atto ad essere elaborato con programmi di analisi multivariata (MULTI VARIANCE, CANOCO, STATS) (FINN, 1976; TER BRAAK, 1987; ROSSARO & LENCIONI, 2001). 3. RISULTATI 3.1. Programmi in FORTRAN Per trasformare i file dal formato matrice al formato lista e stato utilizzato in un primo tempo it programma FORTRAN MAT_LST.FOR che legge in input un file di tipo matrice (se in EXCEL va esportato in formato testo) e scrive i dati in output sotto forma di lista (Fig. 2). La prima colonna delta matrice originate contiene le etichette dei campioni. Se le etichette dei campioni sono descritte su piu colonne nella matrice originale (siti e date di raccolta) esse devono essere concatenate in una singola variabile (RILC), che costituira it primo campo net file lista. Per concatenare i dati in FORTRAN basta assegnare tutta l'informazione desiderata ad un'unica variabile di tipo CHARACTER. Le colonne delta matrice sono le specie (o le variabili ambientali). Le loro etichette sono lette all'inizio net file in ingresso e assegnate a una seconda variabile (SPEC) sempre di tipo CHARACTER, che costituira it secondo campo del file lista. I valori che assumono le variabili (VAL = elementi delta matrice originale) verranno assegnati a una terza variabile, che costituira it terzo campo del file lista. I record in uscita hanno in sintesi 3 campi: 1. RILC (campo del sito); 2. SPEC (campo delta variabile biologica o ambientale); 3. VAL (campo del valore assunto dalla variabile per quel sito). Il file in uscita puo infine essere importato come tabella in un file ACCESS con l'opzione "carica dati esterni". Le tabelle ACCESS possono essere poi esportate in formato testo, che costituisce ]'input del programma FORTRAN LST_MAT.FOR, it quale converte it file lista in file formato matrice. In testa a questo file vanno aggiunte delle istruzioni che forniscono it numero di variabili, la lunghezza dei record ed i formati di input e output. L' output di tale programma puo essere utilizzato come input per i programmi di analisi multivariata MULTIVARIANCE ( F I N N , 1976), CANOCO (TER BRAAK, 1987) e STATS (ROSSARO & LENCIONI, 2001). 3.2. Programmi in VISUAL BASIC Per importare i dati da EXCEL in ACCESS in alternativa all'uso del programma MAT_LST.FOR e stato sviluppato un programma in VISUAL BASIC (Fig. 3) che legge direttamente una tabella ACCESS (net file CHIRO97.MDB, ARCH97.MDB) importata da EXCEL ed esegue, con un modulo VISUAL BASIC, la trasformazione del formato matrice in formato lista. Cio consente un maggior controllo dei dati, anche se i tempi di elaborazione sono sostanzialmente pin lunghi. I1 programma che fa questa trasformazione e MAT_LST.VBP. Per recuperare i nomi delle specie, che formano la riga di intestazione delta tabella EXCEL, e necessario salvarli in una tabella a parte (campi). Per esportare i dati in formato matrice, partendo dal formato lista in ACCESS, e stato creato anche un modulo di VISUAL BASIC in una maschera del file ACCESS chiamata LST MAT.FRM. 11 codice in questa maschera legge i dati in formato lista in una maschera BIO_EXPORT e li scrive in formato matrice in un file di testo esterno LST MAT.OUT. 4. CONCLUSIONI 11 presente pacchetto di programmi consente agevolmente di trasferire dati memorizzati in EXCEL o ACCESS ad altri programmi di analisi multivariata (ROSSARO & LENCIONI, 2001). Benche it linguaggio FORTRAN possa sembrare obsoleto e superato da altri linguaggi di programmazione, it presente lavoro mette in evidenza che la velocit y di elaborazione di database di grandi dimensioni e motto superiore usando it FORTRAN rispetto a VISUAL BASIC. Benche siano state sviluppate entrambe le opzioni FORTRAN e VISUAL BASIC sia per la conversione matrice-lista che viceversa, in pratica e pin agevole usare it programma VISUAL BASIC per trasformare i dati da matrice a lista, e it programma FORTRAN per esportare i dati da ACCESS net formato utile per i programmi di analisi multivariata. Di questi programmi e possibile avere una copia su richiesta al primo Autore. RINGRAZIAMENTI Questo lavoro e stato eseguito con it contributo Biodiversita di ambienti di acque interne mediterranee. M U R S T C O F I N 1999 206 BRUNO ROSSARO, VALERIA LENCIONI, CARLOTTA CASALEGNO SUMMARY - Criteria useful to file and manage a database in natural sciences are described in the present work. In particular, the Authors referred, for biological data, to collections of chironomids (Insecta, Diptera, Chironomidae), deposited at the Department of Biology of the University of Milano and at the Natural Science Museum of Trento. Data were firstly computed using a text editor (DOS editor, Wordstar) (RossARO, 1989), then transformed in other formats using programs in BASIC and lastly filed using a DB3PLUS program. Successively the same data were imported in worksheets using Microsoft EXCEL and from here transferred in ACCESS tables using programs in FORTRAN and VISUAL BASIC. Lastly, FORTRAN routines and VISUAL BASIC modules have been used to have the interface with multivariate analysis programs (MULTIVARIANCE, CANOCO, STATS, etc.). RIASSUNTO - In questo lavoro sono descritti criteri utili per 1'archiviazione e la gestione di una banca dati contenente informazioni di interesse naturalistico. In particolare, si e fatto riferimento per i dati biologici alle collezioni di Chironomidi (Insecta, Diptera, Chironomidae), conservate presso it Dipartimento di Biologia dell'Universitft degli Studi di Milano e it Museo Tridentino di Scienze Naturali di Trento. I dati sono stati dapprima memorizzati utilizzando un editor di testo (editor del DOS, WORDSTAR) (RossARO, 1989), quindi sono stati convertiti mediante 1'uso di programmi scritti in linguaggio BASIC in altri formati e poi archiviati usando it programma di gestione di database DB3PLUS. Successivamente gli stessi dati sono stati importati in fogli di lavoro usando Microsoft EXCEL e da qui importati in tabelle del programma ACCESS con I'ausilio di programmi in FORTRAN e VISUAL BASIC. Infine, sono state scritte routine in FORTRAN e moduli in VISUAL BASIC che consentono I'interfaccia con altri programmi che effettuano analisi multivariate (MULTI-VARIANCE, CANOCO, STATS, ecc.). BIBLIOGRAFIA FnvN J., 1976 - Multivariate analysis of variance and covariance. In: Enslein K., Ralston A. & Wilf H.S. (eds.), Statistical methods for digital computers, Vol. III, Scientific Software Inc. 1369 Neitzel Road Mooresville, IN 46158 (USA), pp. 203-264. ROSSARO B., 1989 - Managing a structured database in entomology. Boll. Lab. Ent. agr. Filippo Silvestri, 46, pp. 185-198. RossARO B., 1990 - Some programs useful for managing data in ecology, taxonomy and zoogeography. Compu ter Applications in the Biosciences (C.A.B.I.O.S), 6, pp. 289-290. ROSSARO B. & LENCIONI V., 2001 - Analysis of Chironomid species - environment relationships in a glacial stream system (Italian Alps) using a General Linear Model. Studi Trent. Sci. Nat., Acta Biol., 76, pp. 17-27. TER BRAAK C.J.F., 1987 - CANOCO. A FORTRAN program for canonical community ordination by partial detrended canonical correspondence analysis, principal component analysis and redundancy analysis (version 2.1). Agriculture Mathematics Group, Wageningen.
© Copyright 2024 Paperzz