O fluxo temporal de termos relevantes

uma análise em teses da UFMG de 2007 a 2018 nas ciências sociais aplicadas

Autores

  • Luiz Antônio Lopes Mesquita Universidade Federal de Minas Gerais
  • Renato Rocha Souza Professor e Pesquisador da Escola de Matemática Aplicada da Fundação Getúlio Vargas, Brasil. Pesquisador da Escola de Ciência da Informação da Universidade Federal de Minas Gerais, Brasil. Bolsista de produtividade do CNPq.
  • Célia da Consolação Dias Professora do Departamento de Organização e Tratamento da Informação da Escola de Ciência da Informação da Universidade Federal de Minas Gerais (UFMG).

DOI:

https://doi.org/10.14295/biblos.v34i2.12395

Resumo

O objetivo geral desta pesquisa foi analisar se há uma variação temporal característica da distribuição de valores de termos relevantes ao longo do tempo da produção de textos que possa contribuir como um critério para o processo de sua indexação automática. Foram analisadas as teses de doutorado dos programas de pós-graduação (PPGs) da área de Ciências Sociais Aplicadas da UFMG, considerando-se 7 PPGs distintos, sendo cada um deles um corpus, com um total de 641 teses defendidas período de 12 anos, de 2007 a 2018. Os termos considerados foram todos os sintagmas nominais contidos nos próprios textos das teses. Cada sintagma nominal recebeu um valor associado à sua relevância como descritor de acordo com os critérios de frequência do termo na própria tese (TF - Term Frequency) e com o inverso da frequência de ocorrência do termo no total de teses de cada PPG (IDF - Inverse Document Frequency). As teses foram divididas em 12 grupos em cada PPG para o cálculo da data média de defesa das teses e da média de pontuação consolidada dos termos relevantes nas teses. Como resultados, identificou-se o comportamento característico de cada PPG através de um gráfico de dispersão do nível médio de pontuação de relevância ao longo do tempo. Para cada gráfico de cada um dos 7 PPGs foi adicionada uma linha de tendência, considerando seu respectivo R², e feita sua análise específica. Todos os comportamentos de distribuição temporais foram caracterizados em equações polinomiais e podem ser aplicados como critério para indexação automática.

Downloads

Não há dados estatísticos.

Biografia do Autor

Renato Rocha Souza, Professor e Pesquisador da Escola de Matemática Aplicada da Fundação Getúlio Vargas, Brasil. Pesquisador da Escola de Ciência da Informação da Universidade Federal de Minas Gerais, Brasil. Bolsista de produtividade do CNPq.

Possui graduação em Engenharia Elétrica pela Pontifícia Universidade Católica do Rio de Janeiro (1993), mestrado em Engenharia de Produção pela Universidade Federal de Santa Catarina (2000), doutorado em Ciência da Informação pela Universidade Federal de Minas Gerais (2005) e pós-doutorado em Semantic technologies for Information Retrieval - South Wales University, UK, sob supervisão de Douglas Tudhope, com bolsa do CNPQ. É atualmente professor e pesquisador da Escola de Matemática Aplicada (EMAp) da Fundação Getúlio Vargas e professor colaborador da Escola de Ciência da Informação da Universidade Federal de Minas Gerais. É Visiting Fellow da University of South Wales (2009-2019), Pesquisador Adjunto Sênior da Universidade de Colúmbia, Pesquisador da Academia Austríaca de Ciencias e Pesquisador da Donau-Universität Krems. É membro do Corpo Editorial do periódico "Knowledge Organization", dentre outros journals. Atua nas áreas de Matemática Aplicada, Ciência da Informação e Data Science, tendo como temas de pesquisa: Representação do Conhecimento, Processamento de Linguagem Natural, Machine Learning, Sistemas de Recuperação de Informações, Indexação Automática, Ontologias, Semântica e Gestão do Conhecimento. Possui extensa experiência em Tecnologia da Informação, inclusive aplicada à Educação, além de experiência em Ensino a Distância.

Célia da Consolação Dias, Professora do Departamento de Organização e Tratamento da Informação da Escola de Ciência da Informação da Universidade Federal de Minas Gerais (UFMG).

Mestrado (2002) e doutorado em Ciência da Informação pela Escola de Ciência da Informação/UFMG (2010) e graduação em Biblioteconomia pela Escola de Ciência da Informação da UFMG (1990). Tenho experiência na área de Ciência da Informação, com ênfase em Organização e Representação da Informação, planejamento, implantação, coordenação de projetos e gestão de equipes. Tenho trabalhado em projeto de organização de informações em laboratórios biológicos, organização e representação de imagens e organização do conhecimento e construção de uma base de dados com informações das imagens dos tetos das igrejas barrocas do sec. XVIII. Sou coordenadora do Programa de Pós-Graduação em Gestão e Organização do Conhecimento (PPG-GOC/UFMG), professora adjunta do Departamento de Organização e Tratamento da Informação da Escola de Ciência da Informação e professora permanente do Programa de Pós-Graduação em Gestão e Organização do Conhecimento, PPG-GOC da UFMG. Sou coordenadora do Grupo de Pesquisa Representação do Conhecimento e Recuperação da Informação - RECRI/UFMG e membro do NDE do curso de biblioteconomia/UFMG. Meus interesses de pesquisa estão inseridos no projeto Estudos de Organização e representação da informação que perpassam por investigações relacionadas às questões de organização das informações em contextos diversos que contribuem para melhorar a recuperação da informação do ponto de vista teórico e de pesquisas aplicadas. Neste espectro podem ser inseridos os processos, as metodologias, os padrões que permitem integrar, recursos de informação para fazer a integração e a gestão de dados, bem como os sistemas de organização do conhecimento que possibilitam a organização da informação para a representação da informação os produtos de informação resultantes da aplicação de tais processos. Destacam -se neste projeto os estudos sobre a os catálogos , os sistemas de classificação, a interoperabilidade semântica, os repositórios digitais, a indexação de imagens, a indexação de imagens e o uso de vocabulário controlado no reconhecimento de imagens, os fundamentos teóricos das linguagens de indexação e dos sistemas de organização do conhecimento, a recuperação da informação e outros aspectos teóricos que envolvem a organização do conhecimento e da informação.​ORCID ID: 0000-0003-0891-6454

Referências

ARAÚJO, Ronaldo Ferreira; ALVARENGA, Lidia. A bibliometria na pesquisa científica da

pós-graduação brasileira de 1987 a 2007. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, v. 16, n. 31, p. 51-70, 2011.

BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern information retrieval. New York: ACM Press, 1999. 511p.

BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern information retrieval: the concepts and technology behind search. 2. ed. London: Pearson Education Limited, 2011. 913 p.

BAXENDALE, P. B. Machine-made index for technical literature: an experiment. IBM Journal of Research and Development, v. 2, n. 4, p. 354-361, 1958.

BICK, E. The Parsing System Palavras: automatic grammatical analysis of portuguese in a constraint grammar framework. Aarhus: Aarhus University Press, 2000.

BOLOUR, Azad et al. The role of time in information processing: a survey. ACM SIGART Bulletin, n. 80, p. 28-46, 1982.

BORGES, Graciane Silva Bruzinga; LIMA, Gercina Ângela Borém de. O. Desenvolvimento de softwares de indexação automática: breve avaliação dos principais critérios. Informação

& Tecnologia, v. 2, n. 2, 2015. Disponível em: https://periodicos.ufpb.br/index.php/itec/article/view/33926 Acesso em: 05 jan. 2019.

BORKO, H. Information science: what is it? American Documentation, v. 19, n. 1, p. 3-5, jan. 1968.

BORKO, H.; BERNIER, C. Indexing concepts and methods. New York: Academic Press. 1978.

BUSH, Vannevar et al. As we may think. The atlantic monthly, v. 176, n. 1, p. 101-108, 1945.

CINTRA, Anna Maria Marques. Elementos de linguística para estudos de indexação. Ciência da informação, v. 12, n. 1, 1983.

DEVARAKONDA, S. et al. Viewing computer science through citation analysis: Salton and Bergmark Redux. Scientometrics, v. 125, n. 1, p. 271-287, 2020.

DIAS, E. W.; NAVES, M. M. L. Análise de assunto: teoria e prática. Brasília: Thesaurus, 2007. 116 p.

DILLON, M. Thesaurus-based automatic book indexing. Information Processing & Management, v. 18, n. 4, p. 167-78, 1982.

DUBOIS, J. et al. Dicionário de lingüística. São Paulo: Cultrix, 1973. 657p.

DUCHON, Andrew P. et al. Method and system to predict the likelihood of topics. U.S. Patent n. 9,165,254, 20 out. 2015.

ECO, U. Como se faz uma tese em ciências humanas. 13. ed. Lisboa: Presença, 2007. 238 p.

FIELD, B. J. Towards automatic indexing: automatic assignment of controlled-language indexing and classification from free indexing. Journal of Documentation, v. 31, n. 4, 1975.

KURAMOTO, H. Proposition d'un système de recherche d'Information assistée par ordinateur avec application à la langue portugaise. 1999. Tese (Doutorado em Ciências da Informação e da Comunicação) – Université Lumière Lyon 2, Paris, França, 1999.

LANCASTER, F. W. Indexação e resumos: teoria e prática. 2. ed. Brasília: Briquet de Lemos, 2004.

LUHN, H. P. A statistical approach to mechanized enconding and searching of literature information. IBM Journal of Research and Development, v. 1, n. 4, p. 309-317, oct. 1957.

LYONS, J. Linguagem e Lingüística: uma introdução. Rio de Janeiro: Livros Tecnicos e Científicos, 1987. 322 p.

MAIA, Luiz Cláudio Gomes; SOUZA, Renato Rocha; , . Uso de sintagmas nominais na classificação automática de documentos eletrônicos. Perspectivas em Ciência da Informação, [S.l.], v. 15, n. 1, p. 154-172, mar. 2010. ISSN 19815344. Disponível em: http://portaldeperiodicos.eci.ufmg.br/index.php/pci/article/view/875. Acesso em: 05 jan. 2020.

MATHEWS, Litty K.; KANMANI, S. Deepa. A survey on temporal information retrieval systems. International Journal of Computer Applications, v. 58, n. 4, 2012.

MATTISON, Robert. A formal system for the logical analysis of temporal relationships between intervals of time. RAND CORP SANTA MONICA CALIF, 1967.

MESQUITA, Luiz Antônio Lopes; SOUZA, Renato Rocha; PORTO, Renata Maria Abrantes Baracho. Características de Teses de oito áreas de conhecimento: uma análise para o desempenho de indexação automática através de sintagmas nominais. In.: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 14., 2013, Santa Catarina. Anais... Florianópolis, SC, 2013.

MESQUITA, Luiz Antônio Lopes; SOUZA, Renato Rocha; PORTO, Renata Maria Abrantes Baracho. Noun phrases in automatic indexing: A structural analysis of the distribution of relevant terms in doctoral theses. Advances In KNOWLEDGE ORGANIZATION, v. 14, 327-34. 2014. Polônia. Anais... Cracóvia, 2014.

MOOERS, Calvin N. Zatocoding applied to mechanical organization of knowledge. American documentation, v. 2, n. 1, p. 20-32, 1951.

MOULAHI, Bilel; TAMINE, Lynda; YAHIA, Sadok Ben. When time meets information retrieval: Past proposals, current plans and future trends. Journal of Information Science, v. 42, n. 6,

p. 725-747, 2016.

ORTEGA, C. D. Relações históricas entre Biblioteconomia, Documentação e Ciência da Informação. DataGramaZero, v. 5, n. 5, out. 2004. Disponível em: http://www.dgz.org.br/out04/Art_03.htm Acesso em 21 jan. 2020.

PERINI, M. A. et al. O SN em português: a hipótese mórfica. Revista de Estudos de Linguagem – UFMG, Belo Horizonte, p. 43-56, jul./dez. 1996.

ROBREDO, J. A. Indexação automática como mecanismo básico no processo de transferência da informação. In: CONGRESSO LATINO-AMERICANO DE BIBLIOTECONOMIA E DOCUMENTAÇÃO, 1., Salvador, 1980. Anais... Salvador: FEBAB, 1980, 19 p.

ROBREDO, J. A. Indexação automática de textos: o presente já entrou no futuro. In: Machado, U. D. (Ed). Estudos avançados em Biblioteconomia e Ciência da Informação, Brasília: ABDF, 1982b. p. 236-74

ROBREDO, J. A. Otimização dos processos de indexação dos documentos e de recuperação da informação mediante o uso de instrumentos de controle terminológico. Ciência da Informação,

v. 11, n. 1, p. 3-18, 1982a. Disponível em: http://revista.ibict.br/ciinf/article/view/175. Acesso em 21 fev. 2020.

SALTON, G. Automatic indexing using bibliographic citations. Journal of Documentation, v. 27, n. 2, p. 98-110, jun. 1971a.

SALTON, G. Designing automatic information system; results obtained with the SMART programs. Social Science Information. Vol. 6(2):111-17, Feb 1967.

SALTON, G. The SMART retrieval systems: experiments in automatic document processing. New York: Prentice-Hall, Englewood Cliffs, 1971b.

SALTON, G.; LESK, M. E. Computer evaluation of indexing and text processing. Journal of the ACM, v. 15, n. 1, p. 8-36, jan. 1968.

SALTON, Gerard; BERGMARK, Donna. A citation study of computer science literature. IEEE Transactions on Professional Communication, n. 3, p. 146-158, 1979.

SARACEVIC, T. Ciência da informação: origem, evolução e relações. Perspectivas em Ciência da Informação. Belo Horizonte, v.1, n.1, p. 41-62, jan./jun. 1996. Disponível em: http://portaldeperiodicos.eci.ufmg.br/index.php/pci/article/view/235. Acesso em 21 jan. 2020.

SAYÃO, L. F. SALF: um algoritmo para indexação automática utilizando vocabulário controlado. 1985. 177 f. Dissertação (Mestrado em Ciência da Informação) – Universidade Federal do Rio de Janeiro, IBICT, Rio de Janeiro, 1985.

SILVA, Tiago José da; CORRÊA, Renato Fernandes. Ferramentas para indexação automática: uma análise comparativa entre o OGMA, Parser PALAVRAS, LX-Parser e a extração manual de sintagmas nominais. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 18., 2017, Marília. Anais... Marília: UNESP, 2017.

SOUZA, R. R. Uma proposta de metodologia para escolha automática de descritores utilizando sintagmas nominais. 2005. 197 f. Tese (Doutorado em Ciência da Informação) – Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte, 2005.

SPARCK JONES, K. A statistical interpretation of term specificity and its application to retrieval. Journal of Documentation, v. 28, n. 1, p. 11-20, 1972.

SPARCK JONES, K. Collection properties influencing automatic term classification performance. Information Storage and Retrieval, v. 9, p. 499-513, 1973.

SPARCK JONES, K. Experiments in relevance weighting of search terms. Information Processing & Management, v. 15, n. 13, p. 133-144, 1979.

SPARCK JONES, K. The role of automatic indexing in oprational on-line retrieval systems. In: FID Congres, 38, Edinburg, 1978. Proceedings… London: ASLIB, 1980, p. 33-38

SWANSON, D. R. Automation indexing and classification. In: Nato Advanced Study Institute on Automatic Analysis, 1963, Venice. Proceedings… New York: [s.n.], 1963. p. 125-128.

VAN RIJSBERGEN, C. J. Information Retrieval. London: Butterwords, 1979.

ZIPF, G. K. Selected studies of the principle of relative frequency in language. Cambridge, USA: Havard University Press, 1932.

Downloads

Publicado

2020-12-31

Como Citar

Mesquita, L. A. L., Souza, R. R., & Dias, C. da C. (2020). O fluxo temporal de termos relevantes: uma análise em teses da UFMG de 2007 a 2018 nas ciências sociais aplicadas. BIBLOS - Revista Do Instituto De Ciências Humanas E Da Informação , 34(2), 344–365. https://doi.org/10.14295/biblos.v34i2.12395