这一次要来介绍如何通过 NXP eIQ (版本:1.14.0) 的机器学习工具 Time Series Studio 来完成数据集收集以及分析。
数据收集
使用 Time Series Studio 来收集数据时,需要搭配一个目标设备经由 Serial Port 链接到电脑,将数据传送至电脑中。
数据传输格式如下:
-
字元格式 ASCII
-
数据样本以空格、逗号和分号中的任一个分隔符号分隔
-
数据集的每一行都以'\r\n'结尾
ㄧ、设定连接目标装置及数据集
- 选择目标设备的 Serial Port,例如 COM14。
- 选择列表中目标设备对应的 Baud Rate,例如 115200。
- 点击“Connect”按钮,完成目标设备连接。
- 指定数据集的通道数量,例如:温度、湿度、压力.. 等。
- 指定数据集的类别数量,例如:正常、异常.. 等。
-
设置已完成。
二、设定与开始数据收集
- 选择数据类别
- 编辑文件名
- 设定样本数,或是使用默认值100行。
- 点击“START”按钮,即可看到 Serial Port 传来的数据,并以最大行数自动储存。
-
若有多个类别需要收集,重复作以上四个步骤,将所有数据类别收集完成。
数据智能
Data Intelligence 可以帮助我们将数据集进行自动分析以及给予建议,我们就能够借由这些建议来优化我们的数据集。
过去我们根据自己的知识来导入数据集,进行模型的训练,但有时候训练出来模型效果并不好。
因此藉由 Data Intelligence 能够协助分析我们所收集到的数据,并提出建议,目的是为了优化数据集:
-
省略不需要的数据通道
-
评估数据集的平衡性
-
最佳采样频率
-
数据窗口大小
一、参数设定
第一步是配置导入数据的参数,输入以下项目 :
-
数据集类型:
-
分段数据
-
连续数据
-
-
通道数量
-
类别数量
-
设定数据的采样频率
-
可设定的最低频率
-
一旦设定了通道数量,我们就可以为每个通道进行命名,方便我们后续理解分析报告。
-
点击每个类别旁边的 + 按钮来导入数据集。 它会自动分辨文档中的分隔符号、行数和行数,确保每个文件符合指定的格式。
-
當數據為 Segmented Data ,列數必須等於視窗大小乘以通道數
-
當數據為 Continuous Data ,列數必須等於通道數
-
-
我们可以修改每个类别的别名,方便我们后续分析。
-
完成步骤后,按一下 START DATA ANALYSIS按钮,进行数据分析并产生报告。
二、分析结果
接着 Data Intelligence 工具就会开始帮我们自动分析,等待一段时间后,我们就会收到分析结果。
-
数据余额
-
利用5颗星评价来说明我们的数据在分类任务中,是否为完美平衡的。
-
-
通道关联
-
适合用于通道数量 >= 2。
-
利用混淆矩阵来说明不同通道之间的关联性。
-
数值越大,通道之间的关联性越高; 数值接近0则反之。 我们可以通过此信息来辨别不重要的通道有哪些并删除,这有助于我们在训练模型的数据集。
-
-
Channel 重要性
-
適合用於 Segmented Data。
-
适合用于通道数量 >= 2
-
显示每个频道的重要性分数,分数越高越好。
-
在此範例中,可以看到通道 X 比其他通道更重要。
-
-
最佳采样参数
-
Sampling Frequency(取样频率):推荐将原始取样频率做「下采样」的建议值。 去除高频噪声、减少数据量与功耗,提升系统效能。 可以帮助我们节省资源和电力,同时仍保留必要的信息。
-
Window Size(窗口大小):建议在进行特征撷取与分类前,数据的分段长度(Time Window)。 目的是让每一个数据段都能代表一个稳定状态,仅对 Continuous Data 有效。
-
Sampling Duration(采样持续时间):单一分段样本数据的取样时间。
-
Distinction Score(区别分数):在「推荐的 Sampling Frequency 与 Window Size」条件下,该数据对不同分类标签(如情绪、疲劳、警觉等)的区分能力。 数值越高分辨力越好,代表该组参数设定能更有效地分辨不同状态。
-
相关博文:NXP TSS 學習筆記 - 數據收集與 Data Intelligence 工具 可点击此处前往大大通查看哦!