2024-09-29, 22:37-今日內容

Skelarn 的scaler可以吧数值型的数据，弄成mean是0 std是1 的转换。具体这有一个例如果pd 出来的结果很奇怪，有很多小数，我们可以设置这个display在最开头：pd.options.display.float_format… Sklearn 的label encoder 会在train feature上帮我们encode所有类别。对于test set，… Sklearn 的label encoder 不是one hot encoding ： Kaggle 对于某一个竞赛的挂载位置是在/kaggle/input/

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Skelarn 的scaler可以吧数值型的数据，弄成mean是0 std是1 的转换。具体这有一个例子：

有个trick： pd.options.display.float_format = ‘‘.format

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

如果pd 出来的结果很奇怪，有很多小数，我们可以设置这个display在最开头：pd.options.display.float_format… 如果pd 出来的结果很奇怪，有很多小数，我们可以设置这个display在最开头：pd.options.display.float_format = ‘‘.format

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Sklearn 的label encoder 会在train feature上帮我们encode所有类别。对于test set，… Sklearn 的label encoder 会在train feature上帮我们encode所有类别。对于test set，只需要进行tranfrom就可以了，而不是inverse。因为我们直接用你好的编码器进行转换，这里有个sample：

找出类别变量

categorical_features = [‘brand’, ‘model’, ‘fuel_type’, ‘engine’, ‘transmission’, ‘ext_col’, ‘int_col’, ‘accident’, ‘clean_title’]

使用LabelEncoder进行编码

label_encoders = {} for col in categorical_features: le = LabelEncoder() train_data[col] = le.fit_transform(train_data[col]) label_encoders[col] = le

# 对测试集进行同样的编码
test_data[col] = le.transform(test_data[col])

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Sklearn 的label encoder 不是one hot encoding ：是的，LabelEncoder 和 OneHotEncoder 是不同的编码方法：

LabelEncoder：将分类标签转换为整数值。例如：[‘red’, ‘green’, ‘blue’] -> [0, 1, 2]。适用于有序或目标标签的转换。
OneHotEncoder：将分类变量转换为独热编码格式（one-hot encoding），为每个类别创建二进制列。例如：[‘red’, ‘green’, ‘blue’] -> [[1, 0, 0], [0, 1, 0], [0, 0, 1]]。

这两种方法的使用取决于具体的应用场景。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Kaggle 对于某一个竞赛的挂载位置是在/kaggle/input/

#匯總今日內容