Monografia Rafael Tabarin Redondo

ALGORITMOS PARA A EXTRAÇÃO DE FÓRMULAS DE BASES DE DADOS DO STACK EXCHANGE PARA A FERRAMENTA SEARCHONMATH

Título [PT]: ALGORITMOS PARA A EXTRAÇÃO DE FÓRMULAS DE BASES DE DADOS DO STACK EXCHANGE PARA A FERRAMENTA SEARCHONMATH

Autor: Rafael Tabarin Redondo

Palavras-Chave [PT]: SearchOnMath, Stack Exchange, Busca de Fórmulas Matemáticas, Extração de Fórmulas Matemáticas.

 

Área de concentração:

Titulação:

 

Banca:

Prof. Dr. Flavio Barbieri Gonzaga (Orientador)

Prof. Leonardo Aparecido Ciscon

Profa. Mariane Moreira de Souza

 

Resumo:

SearchOnMath é uma ferramenta que realiza busca por fórmulas matemáticas em diversas bases de dados existentes na Web, como Wikipedia Mathworld. Com a necessidade de expansão e crescimento da ferramenta, foi proposta para este trabalho a inclusão em sua base de dados de fórmulas existentes em fóruns hospedados no site Stack Exchange. Os fóruns identificados com potencial foram o Mathematica, o Mathematics e o MathOverFlow. As bases de dados dos 3 fóruns foram obtidas através de arquivos disponibilizados pelo Stack Exchange. Foram desenvolvidos algoritmos para importar as páginas de cada fórum e extrair suas fórmulas, inserindo em uma base de dados com a mesma estrutura da base de dados da ferramenta SearchOnMath. A extração das fórmulas é um problema bastante difícil porque nem sempre a marcação da fórmula dentro do texto da página é feita de maneira correta, além da existência de comandos especiais e de falta de padronização da linguagem utilizada para construção das fórmulas. Isso faz com que trechos de texto sejam reconhecidos de maneira equivocada, como se fossem fórmulas. Este problema é detalhado e tratado nos algoritmos desenvolvidos. Como resultado final, foi obtido um número considerável de novas fórmulas, o que resultará futuramente no aumento da capacidade de busca da ferramenta.

 

Data: 07 de Julho de 2015

 

Link: ALGORITMOS PARA A EXTRAÇÃO DE FÓRMULAS DE BASES DE DADOS DO STACK EXCHANGE PARA A FERRAMENTA SEARCHONMATH