常见的特征工程/探索性数据分析任务,编制完成
2023 年 9 月 30 日

常见的特征工程/探索性数据分析任务,编制完成

数据分析/科学任务中最耗时的部分是正确地准备和配置数据。模型的性能取决于输入的数据质量,而数据可能需要经历许多转换才能为模型训练做好准备。多年来,我编制了一个Notion (opens new window)页面,其中列举了许多数据科学家常见的任务。 执行数据准备的操作。我列出了一些示例,但是所有示例都可以在以下链接 (opens new window)中找到。在进行探索性数据分析(EDA)或特征工程时,我将继续扩展此链接,以添加其他经常使用的常用函数。

注意:所有这些示例都是使用Python编写的,主要使用Pandas、Numpy和Sci-Kit Learn库。对于可视化,使用了MatPlotLib或Seaborn。

目录 #

  1. 在DataFrame中检查缺失值
  2. 删除一列
  3. 对一列应用函数
  4. 绘制一列值的计数图
  5. 按列值对DataFrame进行排序
  6. 根据列值删除行
  7. 序数编码
  8. 对所有分类变量进行编码
  9. 其他资源

在DataFrame中检查缺失值 #

以下代码块使用了Pandas函数 isnull()sum() 删除一列

Dropping Rows with Missing Values #

删除具有缺失值的行

Filling Missing Values with a Specific Value #

使用特定值填充缺失值

Filling Missing Values with the Mean #

使用平均值填充缺失值

Filling Missing Values with the Median #

使用中位数填充缺失值

Filling Missing Values with the Mode #

使用众数填充缺失值

Filling Missing Values with Forward Fill #

使用向前填充填充缺失值

Filling Missing Values with Backward Fill #

使用向后填充填充缺失值

Dropping Rows with a Threshold of Missing Values #

删除具有缺失值阈值的行

Dropping Columns with a Threshold of Missing Values #

删除具有缺失值阈值的列