2024-09-29, 22:37-今日內容

Skelarn 的scaler可以吧数值型的数据, 弄成mean是0 std是1 的转换。 具体这有一个例 如果pd 出来的结果很奇怪,有很多小数, 我们可以设置这个display在最开头:pd.options.display.float_format… Sklearn 的label encoder 会在train feature上帮我们encode所有类别。 对于test set,… Sklearn 的label encoder 不是one hot encoding : Kaggle 对于某一个竞赛的挂载位置是在/kaggle/input/

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Skelarn 的scaler可以吧数值型的数据, 弄成mean是0 std是1 的转换。 具体这有一个例 子:

有个trick: pd.options.display.float_format = ‘‘.format 

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

如果pd 出来的结果很奇怪,有很多小数, 我们可以设置这个display在最开头:pd.options.display.float_format… 如果pd 出来的结果很奇怪,有很多小数, 我们可以设置这个display在最开头:pd.options.display.float_format = ‘‘.format

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Sklearn 的label encoder 会在train feature上帮我们encode所有类别。 对于test set,… Sklearn 的label encoder 会在train feature上帮我们encode所有类别。 对于test set, 只需要进行tranfrom就可以了,而不是inverse。 因为我们直接用你好的编码器进行转换,这里有个sample:

找出类别变量

categorical_features = [‘brand’, ‘model’, ‘fuel_type’, ‘engine’, ‘transmission’, ‘ext_col’, ‘int_col’, ‘accident’, ‘clean_title’]

使用LabelEncoder进行编码

label_encoders = {} for col in categorical_features: le = LabelEncoder() train_data[col] = le.fit_transform(train_data[col]) label_encoders[col] = le

# 对测试集进行同样的编码
test_data[col] = le.transform(test_data[col])

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Sklearn 的label encoder 不是one hot encoding : 是的,LabelEncoderOneHotEncoder 是不同的编码方法:

  • LabelEncoder:将分类标签转换为整数值。例如:[‘red’, ‘green’, ‘blue’] -> [0, 1, 2]。适用于有序或目标标签的转换。
  • OneHotEncoder:将分类变量转换为独热编码格式(one-hot encoding),为每个类别创建二进制列。例如:[‘red’, ‘green’, ‘blue’] -> [[1, 0, 0], [0, 1, 0], [0, 0, 1]]。

这两种方法的使用取决于具体的应用场景。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Kaggle 对于某一个竞赛的挂载位置是在/kaggle/input/

#匯總今日內容