我想知道有没有办法确定一个特征(向量)是包含离散数据还是连续数据?
比如 feature1 = [red, blue, green] feature2 = [1.1, 1.2, 1.5, 1.8]
如何判断 fautre1 是离散的,而 feature2 是连续的?
非常感谢。
我想知道有没有办法确定一个特征(向量)是包含离散数据还是连续数据?
比如 feature1 = [red, blue, green] feature2 = [1.1, 1.2, 1.5, 1.8]
如何判断 fautre1 是离散的,而 feature2 是连续的?
非常感谢。
您基本上检查了您感兴趣的变量中有多少不同的值。如果不同值的数量低于实例数量的百分比阈值,则您可以将变量视为分类变量。百分比阈值取决于您拥有的实例数。例如,如果您有 100 个实例并将阈值设置为 5%,那么如果这些实例的不同值低于 5 个,则可以将变量视为分类变量。如果您有 1,000,000 个实例
从交叉验证中查看此答案。
https://stats.stackexchange.com/questions/12273/how-to-test-if-my-data-is-discrete-or-continuous
请注意,此答案指的是 R,但相同的原则适用于任何编程环境,将其转换为 matlab 应该不难。
计算机中表示的每个数据都是离散的,但这可能不是您要寻找的答案。
价值代表什么?特征 1 似乎是离散的,因为它描述了有限集合中的一些颜色名称。但是只要允许任何混合(例如"23%red_42%blue_0.11%green_34.89%white"
,这将成为对连续人工制品的非常奇怪的描述。
特点2:不知道,一些没有任何意义的任意数字。
这可能会有所帮助:class(feature)
, where feature
is any object,告诉你对象的类名。例如:
feature1 = {'red','blue', 'green'};
feature2 = [1.1 1.2 1.5 1.8]
>> class(feature1)
ans =
cell
>> class(feature1{1})
ans =
char
>> class(feature2)
ans =
double
>> class(feature2(1))
ans =
double