Uma dessas etapas é a radicalização, também chamada de stemming. Essa técnica tem como objetivo reduzir palavras flexionadas ou derivadas a uma forma mais simples, aproximada de seu radical. Por exemplo, palavras como “estudar”, “estudando”, “estudado” e “estudos” podem ser aproximadas de uma mesma base, como “estud”. Isso permite que um sistema reconheça relações entre palavras semelhantes, mesmo quando elas aparecem com terminações diferentes. Assim, em um sistema de busca, palavras como “processamento”, “processar” e “processado” podem ser tratadas como pertencentes a uma mesma família lexical, melhorando a recuperação de informações.
Entre os algoritmos de radicalização mais conhecidos está o algoritmo de Porter, criado originalmente para a língua inglesa e amplamente utilizado em tarefas de PLN. Esse algoritmo utiliza regras previamente definidas para remover sufixos e reduzir palavras a formas mais simples. Seu funcionamento ocorre em fases, cada uma voltada ao tratamento de certos tipos de terminações, como plurais, conjugações verbais, adjetivos e advérbios. Embora seja uma técnica eficiente, o stemming não realiza uma análise profunda do significado da palavra, pois se baseia principalmente em padrões formais. Por isso, pode gerar reduções imperfeitas, especialmente quando aplicado a diferentes idiomas ou quando não há adaptação adequada às regras da língua utilizada.
Desafio prático
Imagine que você foi contratado como analista de dados por uma empresa de tecnologia educacional que está desenvolvendo uma plataforma de apoio à leitura acadêmica. Essa plataforma permite que estudantes pesquisem artigos, materiais didáticos e conceitos importantes em uma base de textos.
Durante os testes, a equipe percebeu um problema: quando o estudante pesquisa a palavra “aprendizagem”, o sistema não encontra textos que usam termos como “aprender”, “aprendizado” ou “aprendendo”. O mesmo ocorre com a palavra “classificação”, que não recupera documentos com termos como “classificar”, “classificado” ou “classificando”.
Ao analisar o sistema, você percebe que ele realiza apenas um pré-processamento simples: transforma os textos em letras minúsculas, remove pontuação e separa as palavras. No entanto, ele ainda não utiliza técnicas de normalização textual, como radicalização ou lematização. Com isso, palavras relacionadas acabam sendo tratadas como termos totalmente diferentes, prejudicando a qualidade da busca e a experiência dos usuários.
Seu desafio é apresentar uma proposta inicial para a equipe de desenvolvimento, explicando como a radicalização poderia ajudar a melhorar o mecanismo de busca da plataforma.
Com base nesse cenário, responda:
- a) Explique o que é radicalização (stemming) e qual é sua função no Processamento de Linguagem Natural.
- b) Considerando o problema enfrentado pela empresa, explique como um algoritmo baseado em regras, como o algoritmo de Porter, poderia aproximar palavras com terminações diferentes, como “aprender”, “aprendizado” e “aprendendo”.
- c) Proponha uma solução para melhorar o mecanismo de busca da plataforma educacional, indicando como a radicalização poderia ser aplicada, qual limitação ela pode apresentar e se a empresa deveria utilizar apenas radicalização ou combiná-la com outras técnicas, como a lematização.
O que devo entregar?
Você deverá produzir um texto dissertativo, com cerca de 10 a 15 linhas, apresentando uma solução para o problema descrito no desafio. Sua resposta deve relacionar o conceito de radicalização, o funcionamento de algoritmos baseados em regras e a melhoria do sistema de busca da plataforma educacional.
Não basta apenas definir o que é stemming. É necessário demonstrar como essa técnica poderia ser aplicada em uma situação real de empresa, quais benefícios ela traria para a recuperação de informações e quais cuidados deveriam ser considerados antes de sua implantação definitiva.
Orientações para realizar a atividade 1:
– Acesse o link com um vídeo tutorial para ajudá-lo nesse processo de criação e desenvolvimento. O acesso deverá ser realizado em: Materiais >> Material da Disciplina.
– Lembre-se de que evidências de cópias de materiais, incluindo de outros acadêmicos, sem devidas referências, serão inquestionavelmente zeradas. As citações e referências, mesmo que do livro da disciplina, devem ser realizadas conforme as normas da Instituição de Ensino.
– Não são permitidas correções parciais no decorrer do módulo, ou seja, o famoso: “professor, veja se minha atividade está certa?”. Isso invalida seu processo avaliativo. Lembre-se de que a interpretação da atividade também faz parte da avaliação.
– Procure sanar suas dúvidas junto à mediação em tempo hábil sobre o conteúdo exigido na atividade, de modo que consiga realizar sua participação.
– Sua resposta deve ser inserida diretamente no quadro disponível no campo da Atividade de Estudo 1 (não é permitido anexar formulário).
– Procure elaborar sua resposta em um editor de textos. Existem vários gratuitos e que funcionam diretamente no navegador, como, por exemplo, o Google Docs, e depois colar no campo da atividade.
– Atenção ao prazo de entrega: evite o envio da atividade em cima do prazo. Você pode ter algum problema com internet, computador, software etc., e os prazos não serão flexibilizados, mesmo em caso de comprovação.
Em caso de dúvidas, encaminhe uma mensagem ao seu Professor Mediador.
Bons estudos!
Nossa equipe é composta por profissionais especializados em diversas áreas, o que nos permite oferecer uma assessoria completa na elaboração de uma ampla variedade de atividades. Estamos empenhados em garantir a autenticidade e originalidade de todos os trabalhos que realizamos.
Ficaríamos muito satisfeitos em poder ajudar você. Entre em contato conosco para solicitar o seu serviço.
