问题标签 [tsv]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
excel - 如何处理大型 TSV 文件
我有一个 5GB+ TSV 文件。我需要可视化它包含的数据,但 Excel 无法打开文件(显然太大了)。Tableau 不能处理 TSV 文件,Access 也不能。我尝试使用 010 Editor,它可以打开文件但不能以有用的格式导出。如何打开/导出/转换它?
perl - Perl解析多个分隔符数据
我有一个带有标题行的混合字符分隔文件,我正在尝试使用 Text::CSV 读取该文件,我已在逗号单独文件上成功使用该文件以将其拉入其他脚本中的哈希数组中。我已阅读 Text::CSV 不支持多个分隔符(空格、制表符、逗号),因此我在使用 Text::CSV 之前尝试使用正则表达式清理该行。更不用说数据文件在文件中间还有注释行。不幸的是,我没有管理员权限来安装可以容纳多个 sep_chars 的库,所以我希望我可以使用 Text::CSV 或其他一些标准方法来清理标题和行,然后再添加到 AoH。还是我应该放弃 Text::CSV?
我显然还在学习。提前致谢。
示例文件:
代码摘录:
python - Iterating through dictionary and printing matching rows from tsv file
I have a tsv file like this with headers.
I have a dictionary like {‘0’: ‘aa’, ‘1’:’bb’,’3’:’cc’}
I am supposed to parse through this file, and return rows from the file where every column of index 0 is aa, index 1 is bb and index 3 is cc. In other words, I need to get all the rows where first column is aa, second column is bb and 4th column is cc. So I should be able to print the first 1st and the 4th row from the tsv file, which are
My code snippet does not give the intersection of all these conditions but gives the all the rows where each one of the condition satisfies. Please help me correct my script. The dictionary specified above is named as index dict.
java - 将 tsv 导入 hbase 时出错
我使用以下方法在hbase中创建了一个表:
现在,我想将我的数据从tsv文件导入到它。我在 tsv 中的表有两列:(ProvinceID
作为 pk),ProvinceName
我正在使用以下代码进行导入:
但它给了我这个错误:
regex - 如何从制表符分隔的文本行中提取两个中心列?
我需要两个正则表达式。一个会找到第二个数字块,一个会找到第三个数字块。我的数据是这样的:
一个代码找到04
,另一个代码找到1988
。我已经有了找到前 16 个数字和后 3 个数字的表达式,但我一直在寻找第二部分和第三部分的这两个数字。
ruby - 如何编写 TSV 文件抓取器,其中“如果行包含 x,则保存”?
我想打开一个 TSV(制表符分隔值)文件,并将特定行保存到一个新的 CSV(逗号分隔值)文件中。
如果该行包含'NLD'
在标题为“Actor1Code”的字段中,我想将该行保存到 CSV;如果没有,我想迭代到下一行。这是我到目前为止所拥有的,但显然这还不够:
csv - 读/写实验结果的最佳方法
我正在参与一个项目,我需要使用不同的设置运行不同的实验。由于每个实验需要 2 天才能完成,因此我需要存储尽可能多的信息以供以后分析,即:
我也应该能够附加该文件。一种方法是将所有内容存储在具有特定格式的文本文件中并稍后阅读,但它很慢而且对内存不友好(我需要运行大约 500-1000 次实验)。另一种方法是使用 XML 文件,这使得读取文件更容易。但我仍然不确定最好的方法是什么。能给我一些提示(甚至更好的例子)吗?
linux - tsv 文件的两列的并集
我有一个存储有向图的文件。每条线表示为
node1 TAB node2 TAB 权重
我想找到一组节点。有没有更好的工会方式?我当前的解决方案涉及创建临时文件:
java - 如何设计用于测试包含 10 万条记录的制表符分隔文本文件的 Java 基本框架
我有一个包含 100000 行的文本文件,如下所示
现在我必须创建一个设计,我需要在其中阅读所有这些,并根据测试条件需要以我阅读的相同文件格式生成输出
我在想这可以通过
- 读取输入文件的所有行
- 把它们留在
List<some pojo>
现在这个 pojo 将参考所有条件并生成 o\p
我的问题是循环 readline 1 l00000 次并生成 pojo 是否好?还在每个测试用例条件的最终 o\p 文件夹中,我必须将其转换List<pojo
为上面我们阅读的文本格式。
请让我知道一些更好的方法。
javascript - D3 - 使笔画宽度与第二个数据集共同变化
我正在使用 .tsv 数据集构建一个非常简单的多线图来测量一段时间内的值。我想合并第二个 .tsv 来改变每行的笔画宽度。这两个数据集具有相同的 x 值(时间),但一个将绘制每条线的 y 值,另一个数据集将在 x 和 y 值上绘制线的笔画宽度(我们称之为“z”)。
换句话说: Dataset1 = x,y Dataset2 = x,z
我使用Bostock 的多系列折线图作为我的基本参考。
我有一个想法:我应该将两个 .tsv 合并为一个 .json 吗?