Relazioni tra specie di Ditteri Chironomidi e fattori

Studi Trentini di Scienze Naturali - Acta Biologica
0542 v. 78 (1) (2001), pp. 201-206, Trento 2002
ISSN 0392-
Relazioni tra specie di Ditteri Chironomidi e fattori ambientali esaminate
con un data base relazionale
BRUNO ROSSARO, VALERIA LENCIONI, CARLOTTA CASALEGNO
ABSTRACT - ROSSARO B., LENCIONI V., CASALEGNO C . , 2002 - Relazioni tra specie di Ditteri Chironomidi e
fattori ambientali esaminate con un data base relazionale. [Species environmental data relationships (Diptera
Chironomidae) processed using a relational database]. Studi Trent. Sci. Nat., Acta Biol., vol 78 (1), pp. 201-206.
Criteria useful to file and manage a naturalistic database (slide collection of Diptera Chironomidae from the
Holarctic region) are described. Different filing and transformation methods are presented, from DOS text
editor, DB3PLUS program, Microsoft EXCEL to Microsoft ACCESS. The use of FORTRAN routines and
VISUAL BASIC modules to transform data as required by specific multivariate analysis is emphasised.
PAROLE CHIAVE: database relazionale, analisi multivariata, Chironomidae. KEY
WORDS: relational database, multivariate analysis, Chironomidae.
Carlotta Casalegno, Bruno Rossaro - University degli Studi di Milano, Dipartimento di Biologia, Sezione di
Ecologia, Via Celoria 26, 1-20133 Milano, e-mail: <rossaro@mailserver.unimi.it>.
Valeria Lencioni - Museo Tridentino di Scienze Naturali di Trento, Sezione di Idrobiologia e Zoologia degli
Invertebrati, Via Calepina 14, 1-38100 Trento.
I1 tassonomo, 1'ecologo e lo zoogeografo
dispongono di informazioni costituite da oggetti descritti
mediante attributi (RossARO, 1989, 1990). Gli oggetti
per il tassonomo sono le specie, per 1'ecologo gli
ecosistemi, per lo zoogeografo le aree geografiche. Gli
attributi per il tassonomo sono i caratteri, per l'ecologo
le variabili ambientali o i taxa, per lo zoogeografo i
taxa. Oggetti e attributi possono essere archiviati in
database relazionali strutturati in record divisi in campi.
Esistono diverse tecniche di archiviazione di dati
naturalistici. In questo lavoro, come esempio di
applicazione alla gestione di un archivio utile
nell'ecologia delle acque interne, viene descritto un
database relazionale the memorizza dati biologici con
informazioni sui campioni di raccolta (Figg. la, lb). In
particolare gli Autori vogliono mettere in evidenza
vantaggi e svantaggi di sistemi di catalogazione di dati
naturalistici con programmi in FORTRAN e VISUAL
BASIC.
2. METODI
I1 database fa riferimento alle collezioni di
Chironomidi
(Insecta,
Diptera,
Chironomidae)
conservate presso it Dipartimento di Biologia
dell'University degli Studi di Milano (circa 10000
vetrini) e presso it Museo Tridentino di Scienze Naturali
di Trento (circa 2500 vetrini). La maggior parte del
materiale e stato raccolto sul territorio nazionale, solo
alcuni esemplari provengono da locality straniere
(Austria, Francia, Belgio). Le specie identificate hanno
distribuzione oloartica.
I dati biologici e ambientali relativi a tali
collezioni sono stati archiviati inizialmente utilizzando
un editor di testo (editor di DOS, WORDSTAR)
(RossARO, 1989), quindi furono convertiti mediante
l'uso di programmi scritti in linguaggio BASIC in altri
formati e poi archiviati usando it programma DB3PLUS.
Successivamente, gli stessi dati sono stati
importati in fogli di lavoro usando EXCEL di Microsoft
BRUNO ROSSARO, VALERIA LENCIONI, CARLOTTA CASALEGNO
202
st_ 4_ siti
∞ c_ st4
c_ st3
staz _ 4
latit
long
altit
st_ 3
bio
specie
∞
c_ bio
∞ c_ spec
c_ st4
c_ an
c_ ms
c_ gg
c_ stad
c_ ld
∞ valore
∞
∞
∞
c_ spec
c_ gen
specie
phylo
taxon
autore
codspe
c_ ita _ gen
c_ ita _ spe
∞
c_ st3
∞ c_ st2
genere
st_ 2
c_ st2
∞ c_ st1
luogo_ dep
c_ gen
c_ trib
genere
c_ ld
luogo_ dep
tribu'
st_ 1
c_ st1
∞ c_ reg
c_ trib
tribu'
stadio
anno
c_ stad
stadio
c_ an
anno
regioni
c_ reg
∞ c_ biom
biomi
1
∞
c_ biom
mese
c_ mss
mese
giorno
c_ gg
giorno
Fig. l a - Relazioni tra tabelle nel file ACCESS. 11 simbolo ~c (infinito) indica "relazione uno a molti"; ad esempio: "c_gen"
appare una Bola volta nella tabella "genere" e molte volte nella tabella "specie". Per le spiegazioni dei singoli box si veda la
figura lb.
Fig. la - Relations between tables in the ACCESS , file. The symbol oc (infinity) means a "one to many relationship "; for
example: "g_gen " is present only once in table "genere" and many times in table "specie". Explanations of boxes in figure
lb.
Office. In EXCEL i dati sono stati memorizzati in
formato matrice, dove, nel caso di dati ecologici, i
campioni corrispondono alle righe (record) e le variabili
ambientali e/o le specie alle colonne (campi). Sono state
cosi archiviate le informazioni riguardanti le specie,
gli stadi metamorfici, le date di campionamento e
1'ambiente di raccolta (temperatura, conducibilita, ecc.).
Con l'ausilio di programmi in FORTRAN e
VISUAL BASIC le informazioni immagazzinate nei
fogli di lavoro EXCEL sono state poi importate in
tabelle del programma ACCESS, un pacchetto
specializzato nella gestione di database di tipo
relazionale. L'uso di queries, maschere e report
consente di interrogare it database ed avere risposte
mirate a specifici quesiti (es. distribuzione di una specie
nello spazio e nel tempo, risposta della stessa a fattori
ambientali, ecc.). In ACCESS, per costruire un database
relazionale, e invece necessario avere i dati archiviati
in formato lista, vale a dire con record formati da 3
campi:
1. gli oggetti (ovvero le righe della matrice, nel
nostro caso i campioni);
2. gli attribute (ovvero le colonne, nel nostro caso
le specie);
RELAZIONI TRA SPECIE DI DITTERI CHIRONOMIDI E FATTORI AMBIENTALI ESAMINATE CON UN DATA BASE RELAZIONALE
203
"st 4_siti": c_st4 = contatore della stazione 4; c st3 = contatore della stazione 3; staz 4 = identifica un sito ad un 4°
livello gerarchico (ad es. stazione lungo un flume); latit = latitudine; long: longitudine; altit = altitudine. "st_3": c_st3 =
contatore della stazione 3; c_st2 = contatore della stazione 2; staz 3 = identifica un sito ad un 3° livello gerarchico (ad es.
it nome di un flume).
"st_2": c_st2 = contatore della stazione 2; c stl = contatore della stazione 1; staz_2 = identifica un sito ad un 2° livello
gerarchico (ad es. provincia).
c_stl = contatore della stazione 1; c_reg = contatore della regione; staz 1 = identifica un sito ad un 1° livello
gerarchico (ad es. regione).
"regioni": c reg = contatore delle regioni; c_biom = contatore dell'area geografica; reg = identifica una regione pin vasta
(ad es. stato, Italia, Germania).
"biom": c_biom = contatore dell'area geografica; biom = identifica una regione zoogeografica (ad es. paleartica). "bio": c
bio = contatore di questa tabella; c_spec = contatore della specie; c_st4 = contatore della stazione 4; c a n = contatore
dell'anno; c ms = contatore del mese; c_gg = contatore del giorno; valore = indica la presenza o 1'abbondanza di una specie.
"specie": c_spec = contatore della specie; c_gen = contatore del genere; specie = identifica una specie; philo = e un
numero the da la posizione della specie nella filogenesi; taxon = nome abbreviato della specie; autore = nome dell'autore;
cod = codice della specie; c_ita_gen = numero del genere nella fauna d'Italia; c_ita_spe = numero della specie nella fauna
d'Italia.
"genere": c_gen = contatore del genere; c_trib = contatore della tribu; genere = identifica it genere.
"tribu": c_trib = contatore della tribu; tribu = identifica la tribu.
"anno": c_an = contatore dell'anno; anno = identifica 1'anno.
"mese": c_ms = contatore del mese; mese = identifica it mese.
"giorno": c_an = contatore del giorno; giorno = identifica it giorno.
"stad": c stad = contatore dello stadio; stadio = larva, pupa, adulto.
"luogo_dep": c_ld = contatore del luogo dove e depositato 1'esemplare; luogo_dep = luogo dove e depositato 1'esemplare
(ad es. museo, universita, vetrini, alcool).
Fig. lb - Spiegazioni relative alla figura 1 a.
"st_4_siti ": c_st4 = counter of station 4; c_st3 = counter of station 3; staz_4 = identifies a site at a 4'" hierarchical level
(i.e. station along a river); latit = latitude; long = longitude; altit = altitude.
"st 3 ": c_st3 = counter of staz_3; c_st2 = counter of station 2; staz_3 = identifies a site at a 3' hierarchical level (i.e. river
name).
"st_2": c st2 = counter of staz_2; c s t l = counter of station I; staz_2 = identifies a site at a 2'" hierarchical level (i.e.
province).
c_stl = counter of staz_1; c_reg = counter of region; staz 1 = identifies a site at a I`" hierarchical level (i.e. region).
"regioni": c_reg = counter of regions; c_biom = counter of geographic area; reg = identifies a wider region (i.e. country,
Italy, Germany).
" biom ": c_biom = counter of geographic area,. biom = identifies a zoogeographic region (i.e. palearctic).
"bio ": c_bio = counter of this Table; c spec = counter of species; c_st4 =counter of station 4; can = year counter; c_ms =
month counter; c_gg = day counter; value: species presence or abundance.
"specie": c_spec = counter of species; c gen = counter of genus; specie = identifies a species; philo = gives species
phylogenetic position; taxon = species code; autore = author name; cod = short species code; c_ita_gen = genus number in
the Italian fauna; c_ita_spe = species number in the Italian fauna.
"genere".. c gen = counter of the genus; c trib = counter of the tribe; genere = identifies a genus.
" tribii": c_trib = counter of tribe; tribu = identifies tribe.
"anno": can = year counter; anno = identifies year.
"mese ": c_ms = month counter; mese = identifies month.
°giorno ": can = day counter; giorno = identifies day.
"stad": c_stad = stage counter; stadio = larva, pupa, adult.
"luogo_dep": c_ld = counter of the site where the specimen is stored; luogo dep = site where the specimen is stored (i.e.
museum, universities, slides, alcohol).
Fig. lb - Explanations referred to figure la.
204
.
BRUNO ROSSARO, VALERIA LENCIONI, CARLOTTA C
Carica dati
esterni
A.
Lista
Matrice
File.xls
Mat out.inp
Mat out.out
Tabella
ACCESS
B.
Lista
Matrice
CANOCO
MULTIVARIANCE
STATS
MAT_OUT.FOR
Out mat.out
Salva come
formattato
Out mat.inp
OUT_MAT.FOR
Fig. 2 - Gestione del database con programmi FORTRAN. La sequenza operativa e spiegata nel testo.Fig. 2 - Database management using FORTRAN programs. The operational
sequence is explained in the
mat_out.mdb
Tab:matrice
Tab:lista
C.
Tab:campi
D.
Matrice
mat_out.vbp
mat_out.frm
cod:mat_out
Lista
chiro00.mdb
File:Out_mat.out
Lista
Frm:Bio_export
Frm:out_mat
Fig. 3 - Gestione del database con moduli VISUAL BASIC in ACCESS. La sequenza operativa e spiegata nel testo.
Fig. 3 - Database management with VISUAL BASIC, forms in ACCESS. The operational sequence is explained in the text
RELAZIONI TRA SPECIE DI DITTERI CHIRONOMIDI E FATTORI AMBIENTALI ESAMINATE CON UN DATA BASE RELAZIONALE
20
3. i valori corrispondenti ad un oggetto e ad un attributo
(a una cella delta matrice) diversi da "Null".
Grazie alto sviluppo di routine appropriate, i dati
archiviati in ACCESS sono stati poi esportati in un
formato atto ad essere elaborato con programmi di
analisi multivariata (MULTI VARIANCE, CANOCO,
STATS) (FINN, 1976; TER BRAAK, 1987; ROSSARO &
LENCIONI, 2001).
3. RISULTATI
3.1. Programmi in FORTRAN
Per trasformare i file dal formato matrice al formato
lista e stato utilizzato in un primo tempo it programma
FORTRAN MAT_LST.FOR che legge in input un file di
tipo matrice (se in EXCEL va esportato in formato testo)
e scrive i dati in output sotto forma di lista (Fig. 2). La
prima colonna delta matrice originate contiene le etichette
dei campioni. Se le etichette dei campioni sono descritte
su piu colonne nella matrice originale (siti e date di raccolta)
esse devono essere concatenate in una singola variabile
(RILC), che costituira it primo campo net file lista. Per
concatenare i dati in FORTRAN basta assegnare tutta
l'informazione desiderata ad un'unica variabile di tipo
CHARACTER. Le colonne delta matrice sono le specie
(o le variabili ambientali). Le loro etichette sono lette
all'inizio net file in ingresso e assegnate a una seconda
variabile (SPEC) sempre di tipo CHARACTER, che
costituira it secondo campo del file lista. I valori che
assumono le variabili (VAL = elementi delta matrice
originale) verranno assegnati a una terza variabile, che
costituira it terzo campo del file lista. I record in uscita
hanno in sintesi 3 campi:
1. RILC (campo del sito);
2. SPEC (campo delta variabile biologica o
ambientale);
3. VAL (campo del valore assunto dalla variabile per
quel sito).
Il file in uscita puo infine essere importato come
tabella in un file ACCESS con l'opzione "carica dati
esterni". Le tabelle ACCESS possono essere poi
esportate in formato testo, che costituisce ]'input del
programma FORTRAN LST_MAT.FOR, it quale
converte it file lista in file formato matrice. In testa a
questo file vanno aggiunte delle istruzioni che
forniscono it numero di variabili, la lunghezza dei record
ed i formati di input e output.
L' output di tale programma puo essere utilizzato
come input per i programmi di analisi multivariata
MULTIVARIANCE ( F I N N , 1976), CANOCO (TER
BRAAK, 1987) e STATS (ROSSARO & LENCIONI, 2001).
3.2. Programmi in VISUAL BASIC
Per importare i dati da EXCEL in ACCESS in
alternativa all'uso del programma MAT_LST.FOR e
stato sviluppato un programma in VISUAL BASIC
(Fig. 3) che legge direttamente una tabella ACCESS
(net file CHIRO97.MDB, ARCH97.MDB) importata da
EXCEL ed esegue, con un modulo VISUAL BASIC, la
trasformazione del formato matrice in formato lista.
Cio consente un maggior controllo dei dati, anche se i
tempi di elaborazione sono sostanzialmente pin lunghi.
I1 programma che fa questa trasformazione e
MAT_LST.VBP. Per recuperare i nomi delle specie,
che formano la riga di intestazione delta tabella EXCEL,
e necessario salvarli in una tabella a parte (campi).
Per esportare i dati in formato matrice, partendo
dal formato lista in ACCESS, e stato creato anche un
modulo di VISUAL BASIC in una maschera del file
ACCESS chiamata LST MAT.FRM. 11 codice in
questa maschera legge i dati in formato lista in una
maschera BIO_EXPORT e li scrive in formato matrice
in un file di testo esterno LST MAT.OUT.
4. CONCLUSIONI
11 presente pacchetto di programmi consente
agevolmente di trasferire dati memorizzati in EXCEL o
ACCESS ad altri programmi di analisi multivariata
(ROSSARO & LENCIONI, 2001).
Benche it linguaggio FORTRAN possa sembrare
obsoleto e superato da altri linguaggi di programmazione, it presente lavoro mette in evidenza che
la velocit y di elaborazione di database di grandi
dimensioni e motto superiore usando it FORTRAN
rispetto a VISUAL BASIC. Benche siano state
sviluppate entrambe le opzioni FORTRAN e VISUAL
BASIC sia per la conversione matrice-lista che
viceversa, in pratica e pin agevole usare it programma
VISUAL BASIC per trasformare i dati da matrice a
lista, e it programma FORTRAN per esportare i dati da
ACCESS net formato utile per i programmi di analisi
multivariata.
Di questi programmi e possibile avere una copia
su richiesta al primo Autore.
RINGRAZIAMENTI
Questo lavoro e stato eseguito con it contributo
Biodiversita di ambienti di acque
interne mediterranee.
M U R S T C O F I N 1999
206
BRUNO ROSSARO, VALERIA LENCIONI, CARLOTTA CASALEGNO
SUMMARY - Criteria useful to file and manage a database in natural sciences are described in the present work. In
particular, the Authors referred, for biological data, to collections of chironomids (Insecta, Diptera, Chironomidae), deposited at
the Department of Biology of the University of Milano and at the Natural Science Museum of Trento. Data were firstly
computed using a text editor (DOS editor, Wordstar) (RossARO, 1989), then transformed in other formats using programs in
BASIC and lastly filed using a DB3PLUS program. Successively the same data were imported in worksheets using Microsoft
EXCEL and from here transferred in ACCESS tables using programs in FORTRAN and VISUAL BASIC. Lastly, FORTRAN
routines and VISUAL BASIC modules have been used to have the interface with multivariate analysis programs
(MULTIVARIANCE, CANOCO, STATS, etc.).
RIASSUNTO - In questo lavoro sono descritti criteri utili per 1'archiviazione e la gestione di una banca dati contenente
informazioni di interesse naturalistico. In particolare, si e fatto riferimento per i dati biologici alle collezioni di Chironomidi
(Insecta, Diptera, Chironomidae), conservate presso it Dipartimento di Biologia dell'Universitft degli Studi di Milano e it
Museo Tridentino di Scienze Naturali di Trento. I dati sono stati dapprima memorizzati utilizzando un editor di testo (editor
del DOS, WORDSTAR) (RossARO, 1989), quindi sono stati convertiti mediante 1'uso di programmi scritti in linguaggio
BASIC in altri formati e poi archiviati usando it programma di gestione di database DB3PLUS. Successivamente gli stessi
dati sono stati importati in fogli di lavoro usando Microsoft EXCEL e da qui importati in tabelle del programma ACCESS con
I'ausilio di programmi in FORTRAN e VISUAL BASIC. Infine, sono state scritte routine in FORTRAN e moduli in VISUAL
BASIC che consentono I'interfaccia con altri programmi che effettuano analisi multivariate (MULTI-VARIANCE, CANOCO,
STATS, ecc.).
BIBLIOGRAFIA
FnvN J., 1976 - Multivariate analysis of variance and covariance. In: Enslein K., Ralston A. & Wilf H.S. (eds.),
Statistical methods for digital computers, Vol. III, Scientific Software Inc. 1369 Neitzel Road Mooresville, IN
46158 (USA), pp. 203-264.
ROSSARO B., 1989 - Managing a structured database in entomology. Boll. Lab. Ent. agr. Filippo Silvestri, 46, pp.
185-198.
RossARO B., 1990 - Some programs useful for managing
data in ecology, taxonomy and zoogeography. Compu ter
Applications in the Biosciences (C.A.B.I.O.S), 6, pp.
289-290.
ROSSARO B. & LENCIONI V., 2001 - Analysis of Chironomid
species - environment relationships in a glacial stream
system (Italian Alps) using a General Linear Model.
Studi Trent. Sci. Nat., Acta Biol., 76, pp. 17-27.
TER BRAAK C.J.F., 1987 - CANOCO. A FORTRAN program for canonical community ordination by partial
detrended canonical correspondence analysis, principal
component analysis and redundancy analysis (version
2.1). Agriculture Mathematics Group, Wageningen.