A Universidade Federal Fluminense (UFF) sediou a II Semana Internacional de Acesso Aberto, que integrou a agenda acadêmica da universidade entre 20 e 24 de outubro de 2025. O evento, organizado pelas Bibliotecas UFF, celebrou o primeiro ano da participação da UFF na Semana Internacional de Acesso Aberto, a assinatura da Declaração de Barcelona e a formação do NUCAUF (Núcleo de Ciência Aberta e Dados de Pesquisa da UFF). O tema central das discussões foi a importância da Ciência Aberta para enfrentar os desafios globais, com destaque para os Dados de Pesquisa como Vetores de Transformação.

O Núcleo NUCAUF foi estabelecido como um grupo de trabalho multidisciplinar, composto por representantes da Superintendência de Documentação, docentes, e membros das Pró-Reitorias de Extensão, Pesquisa, Pós-Graduação e Inovação, Relações Internacionais e da Editora da UFF (EDUF), visando atender às demandas científicas globais.

Programação do Dia 22/10

  • Horário: 15:00
  • Mediadora:  Me. Maria Helena Xavier (Coordenação de Bibliotecas – CBI/SDC/UFF)

ABERTURA: 1 ano das ações do Núcleo de Ciência Aberta da UFF

  • Palestrante: Debora do Nascimento (Superintendência de Documentação – SDC/UFF)
  • RODA DE CONVERSA | VISIBILIDADE E INOVAÇÃO NA CIÊNCIA ABERTA: DADOS DE PESQUISA COMO VETORES DE TRANSFORMAÇÃO

Gestão de Dados de Pesquisa na Universidade: Visibilidade, transparência e aceleração da Ciência no Estado do Rio de Janeiro

  • Palestrante: Profª Drª Luana Sales (Instituto Brasileiro de Informação em Ciência e Tecnologia – IBICT) 

Iniciativas de Ciência Aberta com Repositórios de Dados de Pesquisa de Universidades Brasileiras

  • Palestrante: Profª Drª Carolina Howard Felicíssimo (Rede Nacional de Ensino e Pesquisa – RNP) 

Dados de pesquisa para experimentos de Inteligência Artificial: a experiência do Instituto de Computação com o Dataverse

  • Palestrante: Profº Drº Daniel de Oliveira

A Gestão de Dados de Pesquisa como motor da Ciência Aberta

A primeira palestra, conduzida pela Prof. Luana Sales (analista em Ciência e Tecnologia do IBCT/MCTI), abordou a Gestão de Dados de Pesquisa (GDP), contextualizando o movimento da Ciência Aberta.

Da Ciência Fechada ao Acesso Aberto

Inicialmente, a ciência nasce de forma aberta, com pesquisadores buscando o compartilhamento do conhecimento para o bem da humanidade. No entanto, o surgimento de periódicos científicos levou a um fechamento do conhecimento, impulsionado por grandes corporações e editoras que geravam receita financeira através da privação de acesso. Esse cenário resultou na crise dos periódicos e na demanda pelo acesso aberto, onde o conhecimento produzido pelos próprios pesquisadores se tornava inacessível para eles.

Definindo Ciência Aberta e GDP

A Ciência Aberta, entretanto, é muito mais do que publicar em acesso aberto. Ela engloba a garantia de transparência nos métodos, reprodutibilidade e acesso à informação para o cidadão comum. O movimento surgiu da necessidade de abrir artigos, mas rapidamente evoluiu para incluir a transparência nas metodologias e o acesso aos dados. A GDP é apenas uma parte da Ciência Aberta, mas fundamental para a visibilidade, transparência e aceleração da ciência.

A pesquisa científica passou da escassez ao excesso de dados (o Big Data Científico), o que transformou o problema de levantar dados para o problema de selecionar e gerenciar dados. Os dados de pesquisa, que funcionam como evidência, são insumos para a produção científica, a base para a reprodutibilidade e para a inovação.

Desafios e Boas Práticas na GDP

Sem uma gestão adequada, os dados de pesquisa se perdem, tornam-se invisíveis e, consequentemente, inúteis. A GDP deve ser planejada desde o início da pesquisa, antes da coleta, e o Plano de Gestão de Dados (PGD) é uma ferramenta essencial para ajudar o pesquisador a pensar sobre a metodologia, a descrição, o compartilhamento e a preservação dos seus dados. A GDP deve preceder a abertura da ciência, pois é nesse momento que se define se os dados podem ou não ser abertos (como no caso de dados sensíveis, regidos pela LGPD).

Um dos elementos cruciais para a GDP é a atribuição de metadados e documentação (como cadernos de laboratório ou arquivos leia-me), que são necessários para que os dados não sejam incompreensíveis.

Cenário Fluminense e os Princípios FAIR

O estado do Rio de Janeiro enfrenta desafios na área, com uma forte produção científica, mas baixa visibilidade dos dados subjacentes, e as universidades ainda não possuem repositórios de dados ou políticas institucionais específicas para dados. O projeto de pesquisa financiado pela FAPERJ busca propor diretrizes baseadas nos Princípios FAIR (Findable, Accessible, Interoperable, Reusable), que visam acelerar a pesquisa científica e aumentar a transparência e visibilidade.

Em relação ao papel do profissional da informação, destacou-se que seu papel é orientar o pesquisador na elaboração do PGD, auxiliando na identificação de repositórios e metadados adequados, mas o PGD em si deve ser feito pelo pesquisador.

Infraestrutura, Repositórios e Redes de Colaboração

A Prof. Carolina Felicíssimo (RNP) detalhou as iniciativas de Ciência Aberta com repositórios de dados de pesquisa nas universidades brasileiras, ressaltando o papel da RNP no apoio à infraestrutura.

A Transformação Digital e o Papel dos Repositórios: A pesquisa científica atual opera em uma velocidade muito alta, com dados sendo gerados continuamente, elevando a dificuldade de manter o rigor científico. Os repositórios de dados de pesquisa são soluções tecnológicas e informacionais que fornecem suporte para o ciclo de vida completo do dado, desde a coleta até a publicação, permitindo a rastreabilidade (versões) e o reuso.

Alinhada à recomendação da UNESCO (que estabelece o conhecimento como um bem humanitário), a RNP tem atuado na criação de infraestruturas de Ciência Aberta, utilizando redes nacionais de pesquisa e educação.

O Dataverse e a Rede Brasileira

O software Dataverse, desenvolvido pela Universidade de Harvard, é a solução de código aberto utilizada para esses repositórios. Exemplificado pelo repositório da Universidade Federal de Goiás (UFG), o Dataverse permite a organização hierárquica por comunidades e sub-comunidades, e a atribuição de identificador persistente (DOI) para os dados, essencial para visibilidade e rastreabilidade. O software também oferece ferramentas como o plugin SketcheDA, que permite fazer perguntas diretas a grandes conjuntos de dados (como o Censo da Educação Básica), eliminando a necessidade de download completo.

No Brasil, a RNP e o IBCT coordenam o Núcleo de Dados de Pesquisa (NDP), um grupo de trabalho inserido na Rede Brasileira de Repositórios Digitais (RBRD), que visa promover a conscientização e implantação de repositórios de dados.

Oportunidades e Desafios Regionais

Os desafios na implementação são significativos e incluem a falta de suporte das áreas de TI, carência de infraestrutura para hospedagem e manutenção (o volume de dados de pesquisa exige armazenamento muito maior do que publicações) e questões culturais, éticas e jurídicas.

A estratégia do NDP é incentivar a experimentação do Dataverse e utilizar o repositório Deposita Dados do IBCT para instituições iniciantes, fortalecendo a cultura de dados abertos. A implantação bem-sucedida, como a da UFG, exige uma "dobradinha" de sucesso entre profissionais de TI e de Ciência da Informação.

A Complexidade da Preservação

A preservação digital é vista como uma questão mais complexa, exigindo um alto nível de maturidade institucional. Enquanto os repositórios atuais garantem armazenamento e acessibilidade, a preservação de longo prazo para volumes massivos de dados ainda é um desafio em evolução, que precisa de planejamento claro nas políticas de uso.

Dados de Proveniência para Experimentos de Inteligência Artificial

O Prof. Daniel Oliveira (Instituto de Computação UFF) apresentou a experiência do seu grupo de pesquisa com o uso do Dataverse para garantir a reprodutibilidade e transparência em experimentos computacionais e de Inteligência Artificial (IA).

A Necessidade de Proveniência

Para experimentos de IA, não basta disponibilizar os dados de entrada e o modelo final; é fundamental ter o histórico ou proveniência de como o dado foi transformado e como o modelo foi treinado. Sem essa informação, é impossível auditar, explicar ou identificar problemas no modelo (por exemplo, um modelo de detecção facial enviesado que só funciona para um grupo étnico).

O dado de proveniência (o caminho de derivação do dado) é tão importante quanto os resultados.

Integração Automatizada com Dataverse

O grupo da UFF, em parceria com a COPPE/UFRJ, utiliza a ferramenta DL Prov para capturar automaticamente o histórico de execução (metadados de proveniência) dos pipelines de aprendizado de máquina. O grande desafio tecnológico foi integrar essa captura de proveniência com o armazenamento e publicação no repositório.

A solução desenvolvida (chamada de D-Prop) é um componente que automatiza o upload dos dados, modelos e dados de proveniência (em formato W3C PROV) para o Dataverse, organizando-os em comunidades e conjuntos de dados. O objetivo é tirar o encargo da publicação manual do pesquisador, que muitas vezes já possui uma rotina atribulada, garantindo que o pacote completo (dados, modelos e histórico) esteja disponível para reuso e auditoria.
Escalabilidade e Planejamento: A principal dificuldade técnica continua sendo a escalabilidade. O volume de dados gerado em computação, especialmente por grandes modelos de linguagem (LLMs) ou projetos como o LSST (que gera 10 TB a cada 3 ou 4 dias), exige soluções de armazenamento massivas, o que representa um desafio enorme para as universidades.

O professor concluiu que a Ciência Aberta deve ser planejada e não tratada apenas como uma consequência ou uma tarefa a ser feita após a pesquisa. Essa abordagem de integração força o pesquisador a definir e planejar o que será capturado e compartilhado desde o início do projeto.


As palestras convergiram na visão de que a soberania da ciência nacional depende da mobilização das universidades, centros de pesquisa e agências estaduais para integrar esforços em prol da Ciência Aberta e de dados bem gerenciados. O trabalho é reconhecidamente complexo, mas essencial para garantir que o conhecimento produzido seja encontrado, compreendido e reutilizado com confiança.

Fonte: Bibliotecas UFF (Youtube)


Compartilhe!


Retratações deixam de ser apenas um problema editorial e chegam ao financiamento

A Índia está promovendo uma mudança significativa em sua política de integridade científica ao exigir que pesquisadores informem retratações de artigos ocorridas nos últimos cinco anos ao solicitar recursos de...

Tempo de leitura: 1 - 2 minutos