ALGORITMOS PARA A EXTRAÇÃO DE FÓRMULAS DE BASES DE DADOS DO STACK EXCHANGE PARA A FERRAMENTA SEARCHONMATH
Título [PT]: ALGORITMOS PARA A EXTRAÇÃO DE FÓRMULAS DE BASES DE DADOS DO STACK EXCHANGE PARA A FERRAMENTA SEARCHONMATH
Autor: Rafael Tabarin Redondo
Palavras-Chave [PT]: SearchOnMath, Stack Exchange, Busca de Fórmulas Matemáticas, Extração de Fórmulas Matemáticas.
Área de concentração:
Titulação:
Banca:
Prof. Dr. Flavio Barbieri Gonzaga (Orientador)
Prof. Leonardo Aparecido Ciscon
Profa. Mariane Moreira de Souza
Resumo:
A SearchOnMath é uma ferramenta que realiza busca por fórmulas matemáticas em diversas bases de dados existentes na Web, como Wikipedia e Mathworld. Com a necessidade de expansão e crescimento da ferramenta, foi proposta para este trabalho a inclusão em sua base de dados de fórmulas existentes em fóruns hospedados no site Stack Exchange. Os fóruns identificados com potencial foram o Mathematica, o Mathematics e o MathOverFlow. As bases de dados dos 3 fóruns foram obtidas através de arquivos disponibilizados pelo Stack Exchange. Foram desenvolvidos algoritmos para importar as páginas de cada fórum e extrair suas fórmulas, inserindo em uma base de dados com a mesma estrutura da base de dados da ferramenta SearchOnMath. A extração das fórmulas é um problema bastante difícil porque nem sempre a marcação da fórmula dentro do texto da página é feita de maneira correta, além da existência de comandos especiais e de falta de padronização da linguagem utilizada para construção das fórmulas. Isso faz com que trechos de texto sejam reconhecidos de maneira equivocada, como se fossem fórmulas. Este problema é detalhado e tratado nos algoritmos desenvolvidos. Como resultado final, foi obtido um número considerável de novas fórmulas, o que resultará futuramente no aumento da capacidade de busca da ferramenta.
Data: 07 de Julho de 2015