Mapping of ETDs in ProQuest Dissertations and Theses (PQDT) Global database (2014-2018)
DOI:
https://doi.org/10.48798/cadernosbad.2034Keywords:
Latent Dirichlet Allocation, Machine Learning, Text Analytics, Topic Modeling, Prediction ModelingAbstract
The information explosion in the form of ETDs poses the challenge of management and extraction of appropriate knowledge for decision making by information practitioners. This study presents a solution to the problem by applying topic mining and prediction modeling to 441 full-text ETDs extracted from the PQDT Global database during 2014-2018 in the field of library science using the RapidMiner platform. This study was divided into three phases. In the first phase, metadata analysis of the ETDs retrieved from the database was performed to identify the association of various entities such as universities, departments, types of degrees, and geographical areas with the ETDs. In the second phase, 8 core topics namelychildren literature; academic library; information retrieval; archival science; user study; digital library; library leadership; and digital communication were determined using latent dirichlet allocation (LDA) and each ETD was then annotated with the modeled topic. Lastly, a prediction model using the Support Vector Machine (SVM) was created to classify the untagged ETDs going to be submitted in the database under the 8 modeled topics ( a to h ).
Downloads
Downloads
Published
How to Cite
Issue
Section
License
Os autores que publicam nos Cadernos BAD:
- Concedem à revista o direito de primeira publicação, mantendo os direitos de autor, de acordo com os termos da Creative Commons Attribution, que permite a partilha do texto com menção obrigatória da publicação inicial nos Cadernos BAD;
- Mantêm o direito de publicar o texto noutros locais (ex.: repositório institucional, capítulo de livro, outra publicação periódica), com menção da publicação inicial nos Cadernos BAD e uma ligação para o sítio na Internet da revista;
- Mantêm a possibilidade e são mesmo incentivados a publicar e distribuir o seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) antes ou durante o processo editorial, já que isso pode potenciar interações geradoras de melhoria, bem como aumentar o impacto e a citação do texto publicado (Veja Efeitos do Acesso Livre).