Número do Painel
Autor
Instituição
UFSC
Tipo de Bolsa
PIBITI/CNPq
Orientador
JOSE RIPPER KOS
Depto
DEPARTAMENTO DE ARQUITETURA E URBANISMO / ARQ/CTC
Centro
CENTRO TECNOLOGICO
Laboratório
LEUr
Grande Área / Área do Conhecimento
Outros/Outros
Sub-área do Conhecimento
Multidisciplinar
Titulo
Automação de pesquisas em bases bibliográficas e do conteúdo dos registros
Resumo

Plataforma Ecossistemas da Cidade busca integrar o conhecimento sobre os ecossistemas urbanos em um repositório unificado. Textos acadêmicos frequentemente mencionam locais, pessoas, eventos. A extração dessas informações permite resultados de busca mais precisos e associações entre trabalhos e lugares de interesse. Nesse sentido, esta pesquisa busca contribuir no desenvolvimento desta plataforma, focando na investigação e desenvolvimento dos processos automatizados de identificação e extração de informações espaciais de arquivos de texto digital, como livros e artigos. A abordagem explora Grandes Modelos de Linguagem (LLM)

METODOLOGIA: Seleção dos arquivos de teste: Para esta pesquisa, selecionamos X artigos relativos ao tema X da cidade de Florianópolis.   

  1. Extração de informações espaço-temporais    
  2. Named-entity recognition (NER); Relationship extraction (RE)  
  3. Sujeito > Verbo > Sujeito  
  4. Escolha do modelo e Prompt Engineering
  5. Seleção de trabalhos relevantes para testar a extração de dados
  6. Desenvolvimento de algoritmos para estruturação dos dados para criação de mapas e análise de dados  
  7. Mapeamento dos dados extraídos: Os dados foram extraídos de forma a alimentar o mapa digital interativo desenvolvido por pesquisador do laboratório, que também está alinhado com o desenvolvimento da plataforma. 

A aplicação de técnicas de extração usando grandes modelos de linguagem é eficaz, já que esses modelos identificam uma variedade maior de classes de entidades e tipos de relações. Para esta pesquisa, utilizamos a API do modelo Gemini 1.5 Pro ,ideal para análise de textos extensos, como livros. Que segundo Testes com o F1-score indicaram uma precisão de 78%, com potencial de melhoria por meio de refinamentos no prompt e ajustes no modelo. Os prompts de extração foram criados para gerar respostas estruturadas em formato JSON, o que facilita o uso organizado das informações em diferentes sistemas. Esse formato permite a fácil manipulação e integração dos dados com outras ferramentas e linguagens de programação, tornando o processo mais eficiente e escalável. Códigos de programação complementares foram desenvolvidos em Python para organização e correção de eventuais erros no output. Além disso, desenvolvemos algoritmos para automatização da conversão de entidades identificadas com nomes de lugares para coordenadas geográficas através de um processo denominado geocoding. A conversão dessas entidades para coordenadas geográficas via geocoding resultou em mapas interativos detalhados, visualizando as conexões espaciais entre as entidades, e o processo automatizado de geocodificação otimizou a criação de visualizações geoespaciais, melhorando a precisão das buscas e a associação entre conteúdo e locais específicos. A plataforma se mostrou uma ferramenta poderosa para pesquisadores e planejadores urbanos

Link do Videohttps://repositorio.ufsc.br/handle/123456789/259407
Palavras-chave
regeneração ambiental, desigualdades, planejamento sistêmico, repositorio científico, resiliência urbana
ColaboradoresLucas Fernandes

Pró-Reitoria de Pesquisa(PROPESQ) | Central Telefônica - (48) 3721-9332 | Email - piict@contato.ufsc.br