0

我想知道有没有办法确定一个特征(向量)是包含离散数据还是连续数据?

比如 feature1 = [red, blue, green] feature2 = [1.1, 1.2, 1.5, 1.8]

如何判断 fautre1 是离散的,而 feature2 是连续的?

非常感谢。

4

3 回答 3

1

您基本上检查了您感兴趣的变量中有多少不同的值。如果不同值的数量低于实例数量的百分比阈值,则您可以将变量视为分类变量。百分比阈值取决于您拥有的实例数。例如,如果您有 100 个实例并将阈值设置为 5%,那么如果这些实例的不同值低于 5 个,则可以将变量视为分类变量。如果您有 1,000,000 个实例

从交叉验证中查看此答案。

https://stats.stackexchange.com/questions/12273/how-to-test-if-my-data-is-discrete-or-continuous

请注意,此答案指的是 R,但相同的原则适用于任何编程环境,将其转换为 matlab 应该不难。

于 2016-10-19T10:54:50.627 回答
0

计算机中表示的每个数据都是离散的,但这可能不是您要寻找的答案。

价值代表什么?特征 1 似乎是离散的,因为它描述了有限集合中的一些颜色名称。但是只要允许任何混合(例如"23%red_42%blue_0.11%green_34.89%white",这将成为对连续人工制品的非常奇怪的描述。

特点2:不知道,一些没有任何意义的任意数字。

于 2013-10-22T16:02:44.873 回答
0

这可能会有所帮助:class(feature), where featureis any object,告诉你对象的类名。例如:

feature1 = {'red','blue', 'green'};
feature2 = [1.1 1.2 1.5 1.8]

>> class(feature1)
ans =
cell

>> class(feature1{1})
ans =
char

>> class(feature2)
ans =
double

>> class(feature2(1))
ans =
double
于 2013-10-22T18:15:41.130 回答