O que é TF-IDF?

O termo “TF-IDF” vem do inglês Term Frequency - Inverse Document Frequency, ou seja, Frequência do Termo - Inverso da Frequência dos Documentos. Representa um valor, obtido através de métodos estatísticos, que tem o intuito de determinar a importância de uma palavra num texto ou em um conjunto de documentos. Tal técnica é muito utilizada na recuperação de informações, na mineração de dados, consultar documentos similares (com cálculo de distância), transformar os textos para alimentar um modelo de aprendizagem de máquina e dentre outras aplicações.

O valor “TF” de uma palavra aumenta de maneira proporcional à medida que o seu número de ocorrências aumenta no texto, no entanto, esse valor é equilibrado pelo “IDF” que representa o quão rara é a palavra no texto ou documentos. Portanto, temos:

TF = (número de vezes que o termo t aparece no texto) / (número de termos totais no texto);

IDF = Log (N/n), no qual N é o número de documentos ou sentenças no texto, e n é o número de documentos em que o termo apareceu.

Exemplo

  • Considere um documento com 100 palavras no qual o termo “IA” aparece 5 vezes. Portanto: TF = 5/100 = 0.05
  • Se tivermos 100 documentos ao total e o termo “IA” aparece em 20 desses documentos, logo: IDF = Log(100/20) = 0.69
  • Por fim, o valor TF-IDF do termo “IA” é: TF-IDF = 0.05 * 0.69 = 0.034

OBS.: É importante ressaltar que quanto maior o TF-IDF mais raro será o termo. Consequentemente, quanto menor o valor, mais comum será o mesmo.