2024-10-04, 21:03-今日內容

Pd对df 有自带的plot的功能， x会默认用index。 y会用所有的数值类型的colunm的value。想要观察时间序列的长期影响就用rolling 。他可以计算我们的window里面的data的移动mean 或者max等等。主要就… Plt设置标题和label 有非常简便的办法，就是直接set。那么就是axs.set(aspect=’equal’, ylabel… Pd 可以把shift之后的数据，align之后 inner是选取都有的index，也就是交集。返回y和X。 Sklearnfit出来的数据，如果想成为一个新的column，那么西药呼叫pd.Series ，最好给他说index是什么。也… Sklearn 的模型，接受dataframe的shape，但是不接受series，所以如果想要选取某一个column 那么… Pd的series 可以转化成df。直接用to_series（） Pd的loc是专门用来选取index的数据的，我们设置了date索引之后，就很方便的可以直接选取某个日期的数据了。 Pd 对于时间索引，也就是datatime的column 我们让特成为了set index之后，就可以利用month 或者day… Pandas 的index 有专门的datatime index，他可以设置我们用date 或者week 或者month 或者year… 我们读取pd的时候，可以直接转化dtype。还有可以直接让date /时间数据转化为datetime的结构，并且很聪明的调用… 对于精度要求不高的场所我们吧数据从float64 改到float32 可以非常明显的加快处理速度和减少存储压力。直接减少一半的… 哦也就是说我们预测明天的数据，其实是用今天的数据来当作x . 做法就是直接shift，这样就可以创建lag variable了… Seaborn有个专门的回归模型和自动化他的他回归图。特别的方便，不需要我们再去调用linear regresion了。你可以… Pd 的reindex 如果没有指定某些column消失，那么他们就会消失。 Reindex可以用来调整column的顺序，把一些重要的时间顺序放在前面， reset index 就是完全重制。他两非常不… Plt.subplots 什么都不写就是只创建一个图形和一个子图。 Plt画图的时候， set_aspect会让x和y 的unit也就是单位都一致我们可以让他事equal 看起来图片就不会变形， ax… 在pd里面，你的意思是merge 和align 特别形似，align 比merge 简单时间预测模型，有lag 的趋势的话构建模型就要注意。 Gpd事geopandas 我们可以从natural earth 下载shp文件，这样gpd 可以画出来。 Pd转化一些column的数据的类型，需要指定返回的column，要不然他是不会修改原数据的。他也不支持inplace。 Pandas 读取数据的时候，可以一开始读取久指定数据的类型，或者我们先简单读取，然后再对每一个column 单独进行探索性…

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Pd对df 有自带的plot的功能， x会默认用index。 y会用所有的数值类型的colunm的value。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

想要观察时间序列的长期影响就用rolling 。他可以计算我们的window里面的data的移动mean 或者max等等。主要就… 想要观察时间序列的长期影响就用rolling 。他可以计算我们的window里面的data的移动mean 或者max等等。主要就是消除一些突然的震荡或者周边，看长期趋势的。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Plt设置标题和label 有非常简便的办法，就是直接set。那么就是axs.set(aspect=’equal’, ylabel… Plt设置标题和label 有非常简便的办法，就是直接set。那么就是axs.set(aspect=’equal’, ylabel=’sales’, xlabel=’lag_1’, title=’Lag Plot of Average Sales’)

他代替了很多行code： axs.set_aspect(‘equal’) axs.set_ylabel(‘sales’) axs.set_xlabel(‘lag_1’) axs.set_title(‘Lag Plot of Average Sales’)

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Pd 可以把shift之后的数据，align之后 inner是选取都有的index，也就是交集。返回y和X。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Sklearnfit出来的数据，如果想成为一个新的column，那么西药呼叫pd.Series ，最好给他说index是什么。也… Sklearnfit出来的数据，如果想成为一个新的column，那么西药呼叫pd.Series ，最好给他说index是什么。也就是X的index

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Sklearn 的模型，接受dataframe的shape，但是不接受series，所以如果想要选取某一个column 那么… Sklearn 的模型，接受dataframe的shape，但是不接受series，所以如果想要选取某一个column 那么需要用loc的形式，去选取你想要的row 和column 才能放进去fit 进行预测。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Pd的series 可以转化成df。直接用to_series（）

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Pd的loc是专门用来选取index的数据的，我们设置了date索引之后，就很方便的可以直接选取某个日期的数据了。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Pd 对于时间索引，也就是datatime的column 我们让特成为了set index之后，就可以利用month 或者day… Pd 对于时间索引，也就是datatime的column 我们让特成为了set index之后，就可以利用month 或者day来进行索引。熊猫。Series.dt.to_period — pandas 2.2.3 文档 — pandas.Series.dt.to_period — pandas 2.2.3 documentation

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Pandas 的index 有专门的datatime index，他可以设置我们用date 或者week 或者month 或者year… Pandas 的index 有专门的datatime index，他可以设置我们用date 或者week 或者month 或者year作为索引。这样可以更方便的找出规律，

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

我们读取pd的时候，可以直接转化dtype。还有可以直接让date /时间数据转化为datetime的结构，并且很聪明的调用… 我们读取pd的时候，可以直接转化dtype。还有可以直接让date /时间数据转化为datetime的结构，并且很聪明的调用他们的一些算法来帮我们完整这一个步骤。 dtype = { ‘store_nbr’: ‘category’, ‘family’: ‘category’, ‘sales’: ‘float32’, ‘onpromotion’: ‘uint64’, } store_sales = pd.read_csv( comp_dir / ‘train.csv’, dtype=dtype, parse_dates=[‘date’], infer_datetime_format=True, )

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

对于精度要求不高的场所我们吧数据从float64 改到float32 可以非常明显的加快处理速度和减少存储压力。直接减少一半的… 对于精度要求不高的场所我们吧数据从float64 改到float32 可以非常明显的加快处理速度和减少存储压力。直接减少一半的压力，因为float64 会占用8个byte，float32只会占用4个byte

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

哦也就是说我们预测明天的数据，其实是用今天的数据来当作x . 做法就是直接shift，这样就可以创建lag variable了… 哦也就是说我们预测明天的数据，其实是用今天的数据来当作x . 做法就是直接shift，这样就可以创建lag variable了。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Seaborn有个专门的回归模型和自动化他的他回归图。特别的方便，不需要我们再去调用linear regresion了。你可以… Seaborn有个专门的回归模型和自动化他的他回归图。特别的方便，不需要我们再去调用linear regresion了。你可以看一个例子： fig, ax = plt.subplots() ax.plot(‘Time’, ‘Hardcover’, data=book_sales, color=’0.75’) ax = sns.regplot(x=’Time’, y=’Hardcover’, data=book_sales, ci=None, scatter_kws=dict(color=’0.25’)) ax.set_title(‘Time Plot of Hardcover Sales’);

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Pd 的reindex 如果没有指定某些column消失，那么他们就会消失。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Reindex可以用来调整column的顺序，把一些重要的时间顺序放在前面， reset index 就是完全重制。他两非常不… Reindex可以用来调整column的顺序，把一些重要的时间顺序放在前面， reset index 就是完全重制。他两非常不一样。你可以看一个重新reindex的例例子： book_sales = book_sales.reindex(columns=[‘Time’, ‘Hardcover’, ‘Lag_1’])

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Plt.subplots 什么都不写就是只创建一个图形和一个子图。 fig, ax = plt.subplots() # 创建一个图形和一个子图 ax.plot(x, y) # 在子图上绘制数据

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Plt画图的时候， set_aspect会让x和y 的unit也就是单位都一致我们可以让他事equal 看起来图片就不会变形， ax… Plt画图的时候， set_aspect会让x和y 的unit也就是单位都一致我们可以让他事equal 看起来图片就不会变形， ax.set_aspect(‘equal’)

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

在pd里面，你的意思是merge 和align 特别形似，align 比merge 简单可以这么说，align 和 merge 都可以用于对齐和合并数据，但它们有不同的用途和特性：

align：
- 专门用于对齐两个 Pandas 对象（如 DataFrame 或 Series）的索引。
- 更简洁，只需一行代码。
- 在处理时间序列数据时，特别高效和方便。
merge：
- 用于基于一个或多个键（columns）合并两个 DataFrame。
- 更灵活，可以指定多种连接类型（如内连接、外连接、左连接、右连接）。
- 需要更多参数设置（如 on、how 等）。

总的来说，如果你只需要对齐索引，align 更简单和高效；如果你需要基于特定列进行复杂的合并，merge 更适合。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

时间预测模型，有lag 的趋势的话构建模型就要注意。也就是说用前几个row的数据，来作为基础呗，然后用他们来构建现在t的loss function呗。我们可以用pandas的shift来做。把数据往后移动。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Gpd事geopandas 我们可以从natural earth 下载shp文件，这样gpd 可以画出来。维度：y ：-90到90（latitude y）

经度： -180到180 （longtitude）（x）

我们说的经纬就是（x， y）赤道就是维度0，让北90 ，往南-90

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Pd转化一些column的数据的类型，需要指定返回的column，要不然他是不会修改原数据的。他也不支持inplace。 df[‘store_nbr’] = df[‘store_nbr’].astype(‘category’) df[‘family’] = df[‘family’].astype(‘category’) df[‘sales’] = df[‘sales’].astype(‘float64’)

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Pandas 读取数据的时候，可以一开始读取久指定数据的类型，或者我们先简单读取，然后再对每一个column 单独进行探索性… Pandas 读取数据的时候，可以一开始读取久指定数据的类型，或者我们先简单读取，然后再对每一个column 单独进行探索性的操作。

#匯總今日內容