常见的特征工程/探索性数据分析任务,编制完成
2023 年 9 月 30 日
常见的特征工程/探索性数据分析任务,编制完成
数据分析/科学任务中最耗时的部分是正确地准备和配置数据。模型的性能取决于输入的数据质量,而数据可能需要经历许多转换才能为模型训练做好准备。多年来,我编制了一个Notion (opens new window)页面,其中列举了许多数据科学家常见的任务。 执行数据准备的操作。我列出了一些示例,但是所有示例都可以在以下链接 (opens new window)中找到。在进行探索性数据分析(EDA)或特征工程时,我将继续扩展此链接,以添加其他经常使用的常用函数。
注意:所有这些示例都是使用Python编写的,主要使用Pandas、Numpy和Sci-Kit Learn库。对于可视化,使用了MatPlotLib或Seaborn。
目录 #
- 在DataFrame中检查缺失值
- 删除一列
- 对一列应用函数
- 绘制一列值的计数图
- 按列值对DataFrame进行排序
- 根据列值删除行
- 序数编码
- 对所有分类变量进行编码
- 其他资源
在DataFrame中检查缺失值 #
以下代码块使用了Pandas函数 isnull()和sum() 删除一列
Dropping Rows with Missing Values #
删除具有缺失值的行
Filling Missing Values with a Specific Value #
使用特定值填充缺失值
Filling Missing Values with the Mean #
使用平均值填充缺失值
Filling Missing Values with the Median #
使用中位数填充缺失值
Filling Missing Values with the Mode #
使用众数填充缺失值
Filling Missing Values with Forward Fill #
使用向前填充填充缺失值
Filling Missing Values with Backward Fill #
使用向后填充填充缺失值
Dropping Rows with a Threshold of Missing Values #
删除具有缺失值阈值的行
Dropping Columns with a Threshold of Missing Values #
删除具有缺失值阈值的列