tfidf算法优点 tf-idf算法原理及python实现

圆圆2025-07-22 17:01:05次浏览条评论

tf-idf 详解：使用 tfidfvectorizer 计算词频-逆文档频率

论文深入解析了 TfidfVectorizer 在计算 TF-IDF 值时的，重点解释了 IDF 的计算公式，smooth_idf 参数包括的影响。同时，阐明了 TF 值的计算方式，强调了计算后 IDF 中的一个化步骤。通过论文，读者可以更准确地理解和使用 TfidfVectorizer进行文本特征提取。

TF-IDF (词频-逆文档频率) 是一种常用的文本特征提取方法，用于评估文件集或语料库中的词汇，其中一个文件的重要程度。scikit-learn 库中的 TfidfVectorizer 提供了便捷的 TF-IDF 计算功能。了解 TfidfVectorizer 的计算细节以正确使用它的基础。本文将深入探讨 TfidfVectorizer如何计算 TF-IDF 值，并解释了一些常见的疑惑。IDF 的计算

TfidfVectorizer 计算 IDF (Inverse Document Frequency) 的公式文档前台简单的 log(总数 / 包含该词的文档数)。默认情况下，TfidfVectorizer 启用了 smooth_idf 参数，这对 IDF 的计算产生影响。

当 smooth_idf=True 时，IDF 的计算公式如下：IDF(t) = ln((1 n) / (1 df(t))) 1 登录后复制

其中：n是文档总数。df(t) 是包含词汇 t 的文档数。

smooth_idf 的作用是平滑 IDF 值，防止出现 IDF 饱和的情况，从而避免某些词汇被完全忽略。如果 smooth_idf=False，则计算公式为：IDF(t) = ln(n / df(t)) 1登录后复制

以下是一个示例，说明 smooth_idf的影响：

假设我们有 3 个文档，单词“art”只出现在 1 当smooth_idf=True时：IDF("art") = ln((3 1) / (1 1)) 1 = ln(2) 1 ≈ 1.6931当smooth_idf=False时：IDF("art") = ln(3 / 1) 1 = ln(3) 1 ≈ 2.0986

可以通过设置TfidfVectorizer smooth_idf 参数来控制是否启用平滑。

from sklearn.feature_extraction.text import TfidfVectorizerimport numpy as npdata = ['纪念品商店|建筑与艺术|文化与历史'， '纪念品商店|度假村|多样美食|垂钓|商店游戏|美景'， '多样美食|度假村|美景']# Smooth_idf=Truevectorizer = TfidfVectorizer(smooth_idf=True)tfidf_matrix = Vectorizer.fit_transform(data)print(fquot；smooth_idf=True 的 IDF 值：{vectorizer.idf_}quot；)# Smooth_idf=Falsevectorizer = TfidfVectorizer(smooth_idf=False)tfidf_matrix = Vectorizer.fit_transform(data)print(fquot；smooth_idf=False 的 IDF 值：{vectorizer.idf_}quot；)登录后复制

输出结果类似：smooth_idf=True 的 IDF 值：[1.69314718 1. 1. 1.69314718 1. 2.09861229 1.69314718 2.09861229 2.09861229 1.69314718 2.09861229 2.09861229 1.69314718]smooth_idf=False 的 IDF 值：[2.09861229 1. 1. 2.09861229 1. 2.40546511 2.09861229 2.40546511 2.40546511 2.09861229 2.40546511 2.40546511 2.09861229]登录后复制TF的计算

TF（词频）指的是词汇在文档中出现的次数。TfidfVectorizer默认情况下直接使用词频作为TF值，并不进行文档长度的归一化。归一化是在 TF-IDF 计算的后续步骤中进行的。

例如，如果文档“art”在文档 1 中出现 1 次，文档 1 总共有 8 个词，那么“art”的 TF 值就是 1，而不是 1/8。

TfidfVectorizer 有一个范数参数，可以是否进行归一化控制。 norm='l2'，底层对每个文档的TF-IDF支持进行L2归一化，使得每个文档的模长为1。

理解TfidfVectorizer正确使用TF-IDF进行文本特征提取的计算细节至关重要。通过调整smooth_idf和norm 掌握这些可以帮助开发者更好地关注理解文本数据，并构建更高效的文本分析模型。

以上就是TF-IDF详解：使用TfidfVectorizer计算词频-逆文档频率的细节内容，更多请请乐哥常识网其他相关文章！

TF-IDF 详解：

以太坊ETH属于哪条链？以太坊是波场链吗？以太坊值得继续持有吗？