Atividade 3

3.1 Acesso a bancos de dados abertos

O acesso pode ser feito de diferentes formas, seja diretamente no website do repositório, utilizando-se pacotes específicos que acessam os repositórios via R ou Python, ou através de API (Application Programming Interface). Nesta última opção, o repositório é acessado por outro aplicativo ou serviço web para automatização de tarefas, seja em servidor local ou remoto, mas requer conhecimento de programação em Java e outras linguagens e não será tratado aqui.

Nesta atividade, temos como objetivo acessar um repositório de dados de ocorrência de espécies, inspecionar os dados, avaliar sua qualidade e fazer um mapa com as ocorrências.

Para iniciar, vamos escolher um repositório e uma espécie de interesse. Vamos iniciar com uma única espécie para facilitar as demais etapas.

O GBIF (Global Biodiversity Information Facility) é o maior repositório de ocorrências da biodiversidade da atualidade, então será nossa opção de repositório. No entanto, o OBIS (Ocean Biodiversity Information System) é um repositório dedicado às espécies marinhas e espelhado no GBIF. Assim, espera-se que algumas ocorrências sejam duplicadas nos dois repositórios.

3.1.1 Exemplo: Finding Dori

A espécie-alvo será o peixe marinho Paracanthurus hepatus, também conhecido como Blue Tang e, mais recentemente como Dori!.

Nosso primeiro exemplor será com as ocorrencias do GBIF e, para tal, vamos utilizar o pacote rgbif.

3.1.2 GBIF

Vamos fazer uso do pacote tidyverse para manipular dos dados, então vamos carregar este pacote e o rgbif.

É importante explorar as funções do pacote e pode-se fazer isto usando o comando ?rgbif e, para ler sobre uma função em particular basta colocar ? em frente ao nome da função. Se o pacote não estiver carregado ou instalada é preciso usar ??.

A função occ_data faz uma busca simplificada das ocorrências no repositório do GBIF por meio do nome científico, número de identificação, país e outros. Neste caso, vamos procurar diretamente pelo nome da espécie-alvo. Outros atributos podem ser adicionados à função para refinar a busca, leia o material de ajuda da função para ter uma ideia. Vamos aproveitar alguns destes atributos e selecionar apenas ocorrências que possuem coordenadas e sem problemas geoespaciais.

# checar funcoes

# baixar ocorrencias
dori_gbif <- occ_data(scientificName = "Paracanthurus hepatus", 
                      hasCoordinate = TRUE,

# dimensoes
## [1] 500 147
# checar campos
dori_gbif$data %>% names
Acima, vemos que o conjunto de dados tem ocorrências (uma por linha) e variáveis. As variáveis podem ser utilizadas para filtrar as ocorrências de acordo com o objetivo, além de fornecerem diversos dados a respeito das ocorrências, incluindo dados dos amostradores e detentores dos direitos. Vale notar que o conjunto de dados retornado pelo GBIF não é um data frame simples, mas sim um list que contém um conjunto de data frames. Para acessar estes data frames é necessário usar o operador $.

3.2 Problemas reportados

Um dos campos mais úteis dos dados é a coluna issues, pois ela indica problema já identificados pelo validador automático do repositório. Os problemas (issues) possuem um código que pode ser conferido pela função gbif_issues. Ao usar a função não é preciso indicar nenhum atributo, pois ela retornará um dataframe com as abreviações usadas e a descrição dos problemas catalogados no GBIF.

Para checar os issues indicados na base baixada é necessário um pequeno tratamento, uma vez que algumas ocorrências possuem múltiplos problemas. Assim, utilizamos a função strsplit para individualizar os issues e poder conferí-los.

# checar problemas reportados
issues_gbif <- dori_gbif$data$issues %>% 
  unique() %>% 
  strsplit(., "[,]") %>% 

gbif_issues() %>% 
  data.frame() %>% 
  filter(code %in% issues_gbif)
A maioria dos problemas reportados é relacionado com discrepancias entre informações indicadas pelos autores e as levantadas pelo algoritmo de checagem, mas nenhum parece invalidar as ocorrências, por enquanto.

Prosseguimos selecionando algumas variáveis que serão úteis para a validação dos dados e futuras análises, como coordenadas, profundidade, nome da base de dados etc.

dori_gbif1 <- dori_gbif$data %>%
  dplyr::select(scientificName, acceptedScientificName, decimalLatitude, decimalLongitude,
         issues, waterBody, basisOfRecord, occurrenceStatus, rightsHolder, 
         datasetName, recordedBy, depth, locality, habitat) 

Note que temos 500 ocorrências, no entanto, vamos ver quantas são únicas aplicando a função distinct do pacote dplyr.

dori_gbif1 <- dori_gbif1 %>% 

No fim, observamos que ficamos com 377 ocorrências agora, e isso acontece por causa de diferenças em colunas que, neste caso, não serão usadas para o objetivo desta prática.

Para identificar todos os valores únicos presented nos dados, vamos aplicar a função unique a cada coluna com um loop na função lapply.

# checar niveis dos fatores
lapply(dori_gbif1, unique)
## $decimalLongitude
## $issues
## $waterBody
## [4] "OBSERVATION"       
## $occurrenceStatus
## [1] "PRESENT"
## $rightsHolder
## $datasetName
## $recordedBy
## $depth
## $locality
3.3 Problemas não reportados

Agora iniciamos o processo de checagem mais fina que não é realizada pelo algoritmo, por apresentar especificidades que vão além de sua programação. Inicialmente, podemos verificar se as coordenadas são válidas (e.g., latitudes > 90 ou longitude > 180) utilizando funções dos pacotes CoordinateCleaner e bcd. Clicando nos links dos pacotes vocês podem checar diversas outras funcionalidades oferecidas.


# checar coordenadas válidas
check_pf <- 
    data = dori_gbif1,
    lat = "decimalLatitude",
    lon = "decimalLongitude")

# checar coordenadas válidas e próximas a capitais (muitas vezes as coordenadas são erroneamente associadas a capitais dos países)

cl <- dori_gbif1 %>%
  select(acceptedScientificName, decimalLatitude, decimalLongitude) %>%
  rename(decimallongitude = decimalLongitude,
         decimallatitude = decimalLatitude,
         scientificName = acceptedScientificName) %>% 
  as_tibble() %>% 
  mutate(val = cc_val(., value = "flagged"),
         sea = cc_sea(., value = "flagged"),
         capital = cc_cap(., value = "flagged"))

Na imagem abaixo podemos dar uma rápida conferida nos alertas indicados pelas funções. Não tivemos nenhuma coordenada inválida, mas algumas ocorrências parecem estar muito próximas a capitais. No entanto, todas as capitais estão em terra e, nesse caso, temos que investigar se as ocorrências estão em terra (lembre-se a Dori vive no mar!) ou apenas próximas a países insulares.

# verificar coordenadas com flags

# capitais (padrão é um raio de 10km)
cl %>% 
  rename(decimalLongitude = decimallongitude,
         decimalLatitude = decimallatitude) %>% 
  bdc::bdc_quickmap(., col_to_map = "capital")  

cl %>% 
  rename(decimalLongitude = decimallongitude,
         decimalLatitude = decimallatitude) %>% 
  bdc::bdc_quickmap(., col_to_map = "sea")  

Uma maneira fácil de excluir dados em terra é checar a distribuição das ocorrências em relação às regiões oceanográficas indicadas nos dados (waterBody). Isso vale apenas para o OBIS, mas se o objetivo é avaliar espécies terrestres, basta excluir as espécies com flags TRUE na coluna sea criada pela função cc_sea.

# investigar niveis suspeitos
dori_gbif1 %>% 
  distinct(waterBody) %>% 
# waterBody
dori_gbif1 %>%
  group_by(waterBody) %>% 
  summarise(occ = length(scientificName)) %>% 
  ggplot(aes(occ, y=waterBody)) +
    geom_bar(stat = 'identity') 

Aparentemente, esta espécie tem sido reportada no mundo todo. Com o sucesso da animação Procurando Nemo, já temos uma ideia de que a Dori tem ocorrência nas águas Australianas, mas podemos acessar bancos de dados especializados para checar estas informações. No caso de peixes (Osteichthyes e Chondrichthyes) o FishBase é a fonte mais atualizada de informações deste grupo. Depois desta confirmação, podemos suspeitar das ocorrências indicadas no Atlântico e, o tratamento mais rigoroso é a exclusão de qualquer ocorrência suspeita.

# fonte das regioes erradas
dori_gbif1 %>% 
  filter(waterBody %in% c("Atlantic Ocean", "Carribean", "Royal Caribbean", "Carribean Sea", "Bonaire")) %>% 
Alguma característica destas ocorrências do Atlântico podem dar pistas de como continuar filtrando os resultados. Neste caso, abaixo podemos ver que, ao investigarmos um programa de ciência específico de identificação realizada por mergulhadores amadores, notamos que este concentra a maior parte das suspeitas. Assim, é melhor ser conservador e remover todas as ocorrências associadas a tal programa.

# 25 ocorrencias
dori_gbif1 %>% 
  filter(datasetName %in% c("Diveboard - Scuba diving citizen science"))
# filtrar todas do dataset suspeito
dori_gbif_ok <- dori_gbif1 %>% 
  filter(!datasetName %in% c("Diveboard - Scuba diving citizen science"))

Agora não vemos mais nenhuma ocorrência no Atlântico!


world <- map_data('world')
# checar pontos
ggplot() +
  geom_polygon(data = world, aes(x = long, y = lat, group = group)) +
  coord_fixed() +
  theme_classic() +
  geom_point(data = dori_gbif_ok, aes(x = decimalLongitude, y = decimalLatitude), color = "red") +
  labs(x = "longitude", y = "latitude", title = expression(italic("Paracanthurus hepatus")))

Podemos usar a profundidade como outro critério, pois esta espécie é associada apenas a recifes rasos segundo o FishBase. E parece tudo ok.

# checar profundidade
dori_gbif_ok %>% 
  ggplot(aes(x = depth, fill = waterBody)) +

3.3.1 OBIS

Agora vamos fazer os mesmos procedimentos com os dados do OBIS, utilizando o pacote robis e a função occurrence deste pacote.

  1. Baixar as ocorrências
dori_obis <- robis::occurrence("Paracanthurus hepatus")
  1. Checar os dados

Temos variáveis com os mesmos nomes, pois ambos usam o sistema DwC, mas os problemas reportados neste caso são indicados na coluna flags.

# checar dados
dori_obis1 <- dori_obis %>% 
  dplyr::select(scientificName, decimalLatitude, decimalLongitude, bathymetry,
         flags, waterBody, basisOfRecord, occurrenceStatus, rightsHolder, 
         datasetName, recordedBy, depth, locality, habitat) %>% 

# check problemas reportados (flags)
dori_obis1 %>% 
# check NA em datasetName
dori_obis1 %>% 
  filter(!flags %in% c("no_depth,on_land", "on_land", "on_land,depth_exceeds_bath", "depth_exceeds_bath,on_land"), %>% 
Aqui usamos as flags para filtrar ocorrências em terra, além de remover dados sem nome de dataset (não temos como checar a origem adequadamente, então podemos tratar como suspeitos), filtrar ocorrências no Atlântico e verificar a profundidade reportada.

# depth ok
dori_obis1 %>% 
  filter(!flags %in% c("no_depth,on_land", "on_land", "on_land,depth_exceeds_bath", "depth_exceeds_bath,on_land"),
         !waterBody %in% c("North America", "North America Atlantic", "atlantique")) %>% 
  ggplot(aes(x = depth, fill = waterBody)) +

# checar niveis
dori_obis1 %>% 
  filter(!flags %in% c("no_depth,on_land", "on_land", "on_land,depth_exceeds_bath", "depth_exceeds_bath,on_land"),
         !waterBody %in% c("North America", "North America Atlantic", "atlantique")) %>% 
  lapply(., unique)
## [10] "Forereef : RRB : Reef Rubble"                   
## [11] "Forereef : PPR : Pavement with Patch Reefs"     
## [12] "Forereef : PSC : Pavement with Sand Channels"   
## [13] "ZZZ"                                            
## [14] "Protected Slope : AGR : Aggregate Reef"         
## [15] "Forereef : SCR : Sand with Scattered Coral/Rock"
# ok
dori_obis_ok <- dori_obis1 %>% 
  filter(!flags %in% c("no_depth,on_land", "on_land", "on_land,depth_exceeds_bath", "depth_exceeds_bath,on_land"),
         !waterBody %in% c("North America", "North America Atlantic", "atlantique", NA)) 

Podemos usar um mapa para verificar melhor as ocorrências também.

# check
ggplot() +
  geom_polygon(data = world, aes(x = long, y = lat, group = group)) +
  coord_fixed() +
  theme_classic() +
  geom_point(data = dori_obis_ok, aes(x = decimalLongitude, y = decimalLatitude, color = waterBody)) +
  labs(x = "longitude", y = "latitude", title = expression(italic("Paracanthurus hepatus")))

Parece tudo ok, e chegamos a 146 ocorrências potenciais.

Por fim, vamos unir todas as ocorrências, checar se existem duplicatas e plotar o resultado final.

# unir GBIF e OBIS

# ver diferencas
setdiff(names(dori_gbif_ok), names(dori_obis_ok))
## [1] "acceptedScientificName" "issues"
setdiff(names(dori_obis_ok), names(dori_gbif_ok))
## [1] "bathymetry" "flags"
all_data <- bind_rows(dori_gbif_ok %>% 
                        mutate(repo = paste0("gbif", row.names(.))), 
                      dori_obis_ok %>% 
                        mutate(repo = paste0("obis", row.names(.)))) %>%
  column_to_rownames("repo") %>% 
  dplyr::select(decimalLongitude, decimalLatitude, depth) %>% 
  distinct() %>% 
  rownames_to_column("occ") %>% 
  separate(col = "occ", into = c("datasetName", "rn"), sep = 4) %>%
  mutate(scientificName = "Paracanthurus hepatus") %>% 

# mapear ocorrencias
ggplot() +
  geom_polygon(data = world, aes(x = long, y = lat, group = group)) +
  coord_fixed() +
  theme_classic() +
  geom_point(data = all_data, aes(x = decimalLongitude, y = decimalLatitude, color = datasetName)) +
  #theme(legend.title = element_blank()) +
  labs(x = "longitude", y = "latitude", title = expression(italic("Paracanthurus hepatus")))

O último passo é guardarmos os dados baixados e tratados para economizar tempo no próximo uso, mas o mais importante já está registrado, o passo-a-passo de como chegamos até os dados usados nas análises.

write.csv(all_data, "data/occ_GBIF-OBIS_par_hepa.csv", row.names = FALSE)

3.3.2 EXTRA: Classificação automática de pontos Função ‘caseira’

Podemos usar outras ferramentas mais refinadas para nos ajudar a detectar ocorrências suspeitas, como as encontradas nos pacotes CoordinateCleaner, obistools, scrubr e biogeo. Além disso, podemos criar nossas próprias funções para auxiliar nessa tarefa.

Abaixo, vamos utilizar os dados baixados do GBIF antes da limpeza já realizada acima. Aqui vou começar a exemplificar com uma função simples criada por mim. Esta função utiliza as coordenadas para calcular o centróide (ponto médio de todas as ocorrências) e, a partir dele, a distância de cada ponto até o centróide. Esse princípio se baseia em propriedades de conectividade de populações contíguas, então quanto mais distantes (neste caso as muito distantes) maior a chance de termos uma ocorrência suspeita da mesma espécie. Atenção: isso é apenas uma ferramenta para classificar as ocorrências! A decisão de filtrar ou não os pontos suspeitos vai depender do seu conhecimento ou da literatura a respeito dos habitats e regiões de ocorrência da espécie-alvo.

Inicialmente, vamos carregar a função flag_outlier. E, em seguida, aplicaremos a função e vamos plotar um mapa para avaliar as ocorrências com flag de outlier.

# funcao para classificar ocorrencias suspeitas
flag_outlier <- function(df, species){
  # funcao para classificar ocorrencias suspeitas
  # baseada no calculo do centroide de todas ocorrencias
  # indica como 'check' as ocorrencias que tem distancias até o centroide
  # acima do 90th quantil (default) das distancias calculadas
  dados <- df %>% 
    dplyr::filter(scientificName == species); 
  dados2 <- geosphere::distVincentyEllipsoid(
    dados %>%
      summarise(centr_lon = median(decimalLongitude),
                centr_lat = median(decimalLatitude)),
    dados %>% 
      dplyr::select(decimalLongitude, decimalLatitude)
  ) %>% 
    bind_cols(dados) %>% 
    rename(dist_centroid = '...1') %>% 
    mutate(flag = ifelse(dist_centroid < quantile(dist_centroid, probs = 0.9), "OK",
                         ifelse(dist_centroid >= quantile(dist_centroid, probs = 0.90) & dist_centroid < quantile(dist_centroid, probs = 0.95), "check > Q90",
                                ifelse(dist_centroid >= quantile(dist_centroid, probs = 0.95), "check > Q95", "OK"))))
    # mutate(flag = ifelse(dist_centroid > quantile(dist_centroid, probs = prob), "check", "OK"))
# classificar ocorrências
marcados <- dori_gbif$data %>% 
  data.frame() %>% 
  dplyr::select(scientificName, decimalLongitude, decimalLatitude, datasetName) %>% 
  distinct() %>% 
  flag_outlier(., "Paracanthurus hepatus (Linnaeus, 1766)")
# mapa
ggplot() +
    geom_polygon(data = world, aes(x = long, y = lat, group = group)) +
    coord_fixed() +
    theme_classic() +
    geom_point(data = marcados, 
               aes(x = decimalLongitude, y = decimalLatitude, 
                   color = flag)) +
    theme(legend.title = element_blank()) +
    labs(x = "longitude", y = "latitude", 
         title = expression(italic("Paracanthurus hepatus")))

Podemos notar no mapa acima que as ocorrencias acima do 90ésimo quantil são muito similares às já filtradas acima com base no waterBody, mas se já não tivéssemos a informação da ocorrência restrita da espécie ao Indo-Pacífico, já poderíamos desconfiar destas ocorrências tão longe, os outliers. Investigando o datasetName destas ocorrências com flags também chegaríamos a mesma conclusão de excluir os dados associados ao Diveboard - Scuba diving citizen science e sem valor de datasetName. pacote obistools

Vale lembrar que o OBIS é um repositório de dados marinhos, então as ferramentas tem melhor uso para dados desta natureza. Inclusive uma das funções do pacote (check_onland) checa coordenadas em terra, sejam ilhas ou continentes. Aqui vamos testar a função check_outliers_species que tem um princípio semelhante à nossa função caseira flag_outliers, mas é baseada no median absolute deviation (MAD) e no interquartile range (IQR), parâmetros que podem ser ajustados na função. OBS: Algumas vezes pode ocorrer uma falha de conexão com o servidor, então deve-se insistir um pouco.

Um pequeno detalhe. Muitas vezes os pacotes não são atualizados na mesma velocidade que o R e acabam ficando incompatíveis, ou os pacotes não são enviados ao CRAN e, usando a função install.packages o pacote não é encontrado. Quando isso acontece, podemos ir direto no repositório do pacote. Basta dar uma pesquisada do Google como “nome do pacote e from source”. Abaixo segue o exemplo de como instalar direto da fonte usando o pacote devtools.




# dori_obis %>% 
#   dplyr::select(decimalLongitude, decimalLatitude, scientificNameID) %>% 
#   distinct() %>% 
#   check_outliers_species(., report=TRUE)

# usando essa configuração chegamos a valores próximos aos da limpeza manual
dori_obis %>% 
  dplyr::select(decimalLongitude, decimalLatitude, scientificNameID) %>% 
  distinct() %>% 
  check_outliers_dataset(., report = FALSE, iqr_coef = 1, mad_coef = 5) %>% 
## [1] 28  3

Em seguida, verificamos os outliers.

ggplot() +
    geom_polygon(data = world, aes(x = long, y = lat, group = group)) +
    coord_fixed() +
    theme_classic() +
    geom_point(data = marcados %>% 
                 filter(flag != "OK"), 
               aes(x = decimalLongitude, y = decimalLatitude, 
                   color = datasetName)) +
    theme(legend.title = element_blank()) +
    labs(x = "longitude", y = "latitude", 
         title = expression(italic("Paracanthurus hepatus")))

Por fim, vamos testar o pacote CoordinateCleaner. Nele devemos especificar os campos correspondentes na função clean_coordinates.

flags <-
    x = marcados,
    lon = "decimalLongitude",
    lat = "decimalLatitude",
    species = "scientificName",
    tests = c("equal", "gbif",
              "zeros", "seas")

Neste caso, nenhuma ocorrência foi marcada como suspeita. Moral da história, sempre temos que conferir todos os dados, mas as ferramentas ajudam muito nesta tarefa! ***

Colabore, compartilhe, e cite as fontes!