问题标签 [data-representation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 数字表示名义数据,同时保留数据语义
我有一个标称和数字特征的数据集。如果可能的话,我希望能够完全用数字表示这个数据集。
理想情况下,我将能够为 n 元名义特征执行此操作。我意识到在二进制情况下,可以用整数表示两个标称值。然而,当一个名义特征可以有许多排列时,如果有的话,这怎么可能呢?
dayofweek - 是否有一个字符的星期约定?
英语(或特定于程序员)的星期几有一个单一的字符约定,如果有,它是什么?我意识到这可能是一个英语问题,但我认为它对程序员具有特殊意义。
也许是这样的:
c - C 中的数据表示:链接结构与大结构
在查看某人的代码时,我被一种表示数据的方式所震惊,在 C 上下文中,这对我来说似乎很奇怪:
这个人需要为光线追踪器表示不同类型的几何图形,每个几何图形虽然不同,但在结构上却有相似之处。所以这个人决定通过指针链接在一起的或多或少的抽象结构来表示几何。
我想知道为什么人们会通过抽象层在 C 中分解其数据,而不是为每种数据提供一个包罗万象的结构。
一种解释是,如果您的函数在数据的某个抽象层上运行,则可以减少开销。正确的 ?
在我看来,这就像 OOP 习惯的残余。
data-structures - 五子棋局代表
我正在开发五子棋游戏,我需要一个有效的数据结构来存储棋盘状态,我曾考虑将其存储在二维数组中,但我确信有一种更有效的方法。谢谢
javascript - 使用数据点创建“热图像”
我正在寻找一种将一些数据点表示为“热图”(500x500)的方法。
数据数组:
这个数组应该使用 CSS 和 Javascript 处理成这样的东西:(非常粗略)
使用 Javascript 和 CSS 解决此问题的最佳方法是什么?
python - Pygraphviz / networkx 设置节点级别或层
我有一个代表一种家谱树的数据集。每个节点有 2 个父节点(第一代除外,它们没有父节点)。对于给定的节点,其父节点可以来自任何上一代。例如,第 n 代中的节点可以在 n-1 中有一个父节点,在 n-5 中有另一个父节点。一个节点可以是其他几个节点的父节点。
所以基本上,对于每个节点,我都知道它的世代和父节点。
我试图表示此图,将同一代的节点保持在同一行中。除第一个节点外,每一代都有 10 个节点。
到目前为止,我正在尝试“点”布局。当我只输入两代时它做得很好,但是当我输入三代时,它“太聪明了”,并以某种方式重新排列了节点。
例如下面的数据,代表 3 代:
[(ObjectId('530b2ad783a1a15e695c9711'), ObjectId('530b804883a1a15e695c972b')), (ObjectId('530b2ad783a1a15e695c971c'), ObjectId('530b804883a1a15e695c972b')), (ObjectId('530b2ad783a1a15e695c9709'), ObjectId('530b804883a1a15e695c9727')), ( ObjectId('530b2ad783a1a15e695c970a'), ObjectId('530b804883a1a15e695c9727')), (ObjectId('530b2ad783a1a15e695c970b'), ObjectId('530b804883a1a15e695c9724')), (ObjectId('530b2ad783a1a15e695c970f'), ObjectId('530b804883a1a15e695c9724')), (ObjectId( '530b2ad783a1a15e695c9714'), ObjectId('530b804883a1a15e695c9729')), (ObjectId('530b2ad783a1a15e695c970e'), ObjectId('530b804883a1a15e695c9729')), (ObjectId('530b2ad783a1a15e695c9711'), ObjectId('530b804883a1a15e695c9723')),(ObjectId('530b2ad783a1a15e695c970e'), ObjectId('530b804883a1a15e695c9723')), (ObjectId('530b2ad783a1a15e695c971c'), ObjectId('530b804883a1a15e695c9728')), (ObjectId('530b2ad783a1a15e695c9719'), ObjectId('530b804883a1a15e695c9728')), (ObjectId ('530b2ad783a1a15e695c9714'), ObjectId('530b804883a1a15e695c9726')), (ObjectId('530b2ad783a1a15e695c9713'), ObjectId('530b804883a1a15e695c9726')), (ObjectId('530b2ad783a1a15e695c9716'), ObjectId('530b804883a1a15e695c9722')), (ObjectId(' 530b2ad783a1a15e695c9719'), ObjectId('530b804883a1a15e695c9722')), (ObjectId('530b2ad783a1a15e695c970d'), ObjectId('530b804883a1a15e695c9725')), (ObjectId('530b2ad783a1a15e695c9715'), ObjectId('530b804883a1a15e695c9725')),(ObjectId('530b804883a1a15e695c9724'), ObjectId('530ba27c83a1a15e695c972d')), (ObjectId('530b2ad783a1a15e695c9713'), ObjectId('530ba27c83a1a15e695c972d')), (ObjectId('530b804883a1a15e695c9724'), ObjectId('530ba27c83a1a15e695c972e')), (ObjectId ('530b2ad783a1a15e695c9709'), ObjectId('530ba27c83a1a15e695c972e')), (ObjectId('530b804883a1a15e695c9727'), ObjectId('530ba27c83a1a15e695c972f')), (ObjectId('530b2ad783a1a15e695c9709'), ObjectId('530ba27c83a1a15e695c972f')), (ObjectId(' 530b2ad783a1a15e695c9713'), ObjectId('530ba27c83a1a15e695c9730')), (ObjectId('530b2ad783a1a15e695c9709'), ObjectId('530ba27c83a1a15e695c9730')), (ObjectId('530b2ad783a1a15e695c9713'), ObjectId('530ba27c83a1a15e695c9731')),(ObjectId('530b804883a1a15e695c9725'), ObjectId('530ba27c83a1a15e695c9731')), (ObjectId('530b804883a1a15e695c9722'), ObjectId('530ba27c83a1a15e695c9732')), (ObjectId('530b2ad783a1a15e695c970b'), ObjectId('530ba27c83a1a15e695c9732')), (ObjectId ('530b2ad783a1a15e695c9711'), ObjectId('530ba27c83a1a15e695c9733')), (ObjectId('530b2ad783a1a15e695c971f'), ObjectId('530ba27c83a1a15e695c9733')), (ObjectId('530b804883a1a15e695c972b'), ObjectId('530ba27c83a1a15e695c9734')), (ObjectId(' 530b2ad783a1a15e695c9713'), ObjectId('530ba27c83a1a15e695c9734')), (ObjectId('530b2ad783a1a15e695c9709'), ObjectId('530ba27c83a1a15e695c9735')), (ObjectId('530b804883a1a15e695c9724'), ObjectId('530ba27c83a1a15e695c9735')),(ObjectId('530b2ad783a1a15e695c9713'), ObjectId('530ba27c83a1a15e695c9736')), (ObjectId('530b804883a1a15e695c9723'), ObjectId('530ba27c83a1a15e695c9736')), (ObjectId('530b2ad783a1a15e695c9716'), ObjectId('530b804883a1a15e695c9722')), (ObjectId ('530b2ad783a1a15e695c9719'), ObjectId('530b804883a1a15e695c9722')), (ObjectId('530b2ad783a1a15e695c9711'), ObjectId('530b804883a1a15e695c9723')), (ObjectId('530b2ad783a1a15e695c970e'), ObjectId('530b804883a1a15e695c9723')), (ObjectId(' 530b2ad783a1a15e695c970b'), ObjectId('530b804883a1a15e695c9724')), (ObjectId('530b2ad783a1a15e695c970f'), ObjectId('530b804883a1a15e695c9724')), (ObjectId('530b2ad783a1a15e695c970d'), ObjectId('530b804883a1a15e695c9725')),(ObjectId('530b2ad783a1a15e695c9715'), ObjectId('530b804883a1a15e695c9725')), (ObjectId('530b2ad783a1a15e695c9714'), ObjectId('530b804883a1a15e695c9726')), (ObjectId('530b2ad783a1a15e695c9713'), ObjectId('530b804883a1a15e695c9726')), (ObjectId ('530b2ad783a1a15e695c9709'), ObjectId('530b804883a1a15e695c9727')), (ObjectId('530b2ad783a1a15e695c970a'), ObjectId('530b804883a1a15e695c9727')), (ObjectId('530b2ad783a1a15e695c971c'), ObjectId('530b804883a1a15e695c9728')), (ObjectId(' 530b2ad783a1a15e695c9719'), ObjectId('530b804883a1a15e695c9728')), (ObjectId('530b2ad783a1a15e695c9714'), ObjectId('530b804883a1a15e695c9729')), (ObjectId('530b2ad783a1a15e695c970e'), ObjectId('530b804883a1a15e695c9729')),(ObjectId('530b2ad783a1a15e695c9715'), ObjectId('530b804883a1a15e695c972a')), (ObjectId('530b2ad783a1a15e695c970b'), ObjectId('530b804883a1a15e695c972a')), (ObjectId('530b2ad783a1a15e695c9711'), ObjectId('530b804883a1a15e695c972b')), (ObjectId ('530b2ad783a1a15e695c971c'), ObjectId('530b804883a1a15e695c972b'))]
产生:
例如,所有“根”节点因此不接收边缘应放置在第一行,但它会将其中一些放置在第二层。
一旦我尝试制作更大的图表,包含 10 代,所有的层次结构都毫无意义。
是否有任何参数或方法来指定节点的级别或层?在我提供的数据中,该信息不存在,但我可以轻松生成它,问题是我不知道如何将该信息发送到 pygraphviz 或 networkx。
我还想使用这些数据生成带有 twopi 的图形,例如http://networkx.github.io/documentation/latest/examples/drawing/lanl_routes.html
其中层以圆形方式表示。
r - 整数的精确表示
我知道在 Java 中有一个 BigInteger 类,它允许通过字符串处理整数的完整表示形式。R中有类似的东西吗?我使用整数来表示我的数据结构中的索引,并且我需要保持该表示尽可能准确,因此不会获得诸如“7.897557e+14”之类的索引。提前致谢。
c++ - 表示适合整数的数据类型
似乎有两种方法可以在 C++ 中表示一张卡片。
显而易见的方法是:
还有另一种方法是用一个字节表示整张卡片。
第一个似乎更明显,优点是卡有自己的类型。这使它更安全,因为它不能与其他类型混淆。另一方面,第二种表示是内存高效的,并且使一些操作相对容易。例如,创建甲板可以通过
我应该仍然使用第一种方式还是有办法获得两者的优势?
integer - 为什么 varint 是一种有效的数据表示?
我目前正在研究协议缓冲区的文档。Varints 被描述为:
varint 中的每个字节,除了最后一个字节,都设置了最高有效位 (msb)——这表明还有更多字节要到来。每个字节的低 7 位用于存储以 7 位为一组的数字的二进制补码表示,最低有效组在前。
我的问题是为什么要选择在每个字节上丢失一位的表示形式?这种方法有什么好处?
svm - 支持向量机的数据表示
我有一百万个文件,其中包括自由文本。每个文件都被分配了一个代码或多个代码。可以将代码假定为类别。我通过删除停用词对文本进行了规范化。我正在使用 scikit-learn libsvm 来训练模型以预测正确代码(类别)的文件。
我已经阅读和搜索了很多,但我不明白如何将我的文本数据表示为整数,因为 SVM 或大多数机器学习工具使用数值进行学习。
我想我需要为整个语料库中的每个术语找到 tf-idf。但我仍然不确定这将如何帮助我将文本数据转换为 libsvm 格式。
任何帮助将不胜感激,谢谢。