2010/12/23

coisinhas boas: similitude Jaro_winkler

Mais uma vitória(zinha)!
Como acho que já comentei, uma das coisas que se destaca de uma leitura preliminar é a sobreposição de respostas entre "Deus" e "Jesus", em alguns questionários.
É coisa para dar informações importantes sobre a representação da Trindade.
O problema é que nós, humanos, somos bastante bons a detectar "parecenças". E as máquinas nem por isso.
Como fazer para automatizar este procedimento de medida da similitude entre dois campos?
Afinal, na área da data warehouse há uns fulanos que lidam com isso todos os dias. Há vários algoritmos disponíveis. Um deles é o de Jaro-Winkler-
Depois de umas tentativas frustradas de implementar a coisa, descobri que um outro sw com que estou a trabalhar (Pentaho kettle) consegue fazer isso razoavelmente.
O algoritmo jaro-winkler compara 2 textos e dá uma medida entre 0 (totalmente diferentes) e 1 (absolutamente semelhantes).

Sem comentários: