问题标签 [tsv]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1105 浏览

csv - 在文件中转置数据网格的最佳方法

我在 2D 网格上有大型数据文件。它们的组织方式使得网格中的后续数据行是文件中的后续行。每列由制表符分隔。本质上,这是一个 CSV 文件,但带有选项卡而不是列。

我需要转置数据(第一行成为第一列)并将其输出到另一个文件。最好的方法是什么?任何语言都可以(我更喜欢使用 Perl 或 C/C++)。目前,我的 Perl 脚本只是将整个文件读入内存,但我的文件非常庞大。

0 投票
2 回答
253 浏览

asp.net - 将 DataTable 显示为 TSV 的最简单方法是什么?

我有一个DataTable来自 Access 数据库的数据,需要以<textarea>制表符分隔的文本显示。我的第一个想法只是使用 aRepeater并使用ItemTemplate来格式化行,但问题是 Visual Studio 会自动将制表符转换为一组普通空格。有没有办法解决这个问题?还是有更好的方法来实现这一目标?

0 投票
3 回答
11838 浏览

text - 制表符分隔或逗号分隔输出中的新行

我正在寻找一些关于处理 csv 和制表符分隔文件的最佳实践。

对于 CSV 文件,如果值包含逗号或双引号,我已经在进行一些格式化,但如果值包含换行符怎么办?我应该保持新行不变并将值用双引号括起来+转义值中的任何双引号吗?

制表符分隔文件的相同问题。我假设答案会非常相似,如果不一样的话。

0 投票
2 回答
176 浏览

database - 使用最低通用技术分母的 UTF-8 元组存储,仅附加

编辑:请注意,由于硬盘驱动器实际写入数据的方式,此列表中的任何方案都不能可靠地工作。不要使用它们。只需使用数据库。SQLite 是一个很好的简单的。

在磁盘上存储 UTF-8 字符串元组的最低技术但最可靠的方法是什么?为了可靠性,存储应该是仅附加的。

作为我正在试验的文档存储系统的一部分,我必须将 UTF-8 元组数据存储在磁盘上。显然,对于完整的实施,我想使用 Amazon S3、Project Voldemort 或 CouchDB 之类的东西。

然而,目前,我正在试验,甚至还没有坚定地选择一种编程语言。我一直在使用 CSV,但是当您尝试存储古怪的 unicode 和意外空白(例如垂直制表符)时,CSV 往往会变得脆弱。

我可以使用 XML 或 JSON 进行存储,但它们不能很好地处理仅附加文件。到目前为止,我最好的猜测是一种相当特殊的格式,其中每个字符串前面都有一个 4 字节有符号整数,表示它包含的字节数,整数值 -1 表示这个元组是完整的 - 相当于 CSV 换行符. 头痛的主要来源是必须决定磁盘上整数的字节顺序。

编辑:实际上,这行不通。如果程序在写入字符串时退出,则数据将不可撤销地错位。需要某种带外信令来确保在中止的元组之后可以重新获得对齐。

编辑 2:事实证明,在附加到文本文件时保证原子性是可能的,但解析器非常重要。现在写说解析器。

编辑 3:您可以在http://github.com/MetalBeetle/Fruitbat/tree/master/src/com/metalbeetle/fruitbat/atrio/查看最终结果。

0 投票
4 回答
29014 浏览

ruby - 在 Ruby 中解析制表符分隔文件的最佳方法是什么?

在 Ruby 中解析制表符分隔文件的最佳(最有效)方法是什么?

0 投票
2 回答
681 浏览

ruby - 如何使用 Hadoop 将 XML 转换为 TSV?

我有一个格式非常简单的 XML 文档,我想将它翻译成适合导入 Hive 的 TSV。本文档的格式很简单:

我有一个可以正常工作的 Ruby 脚本,可以将上述格式的文档正确地转换为 TSV。就在这里:

不幸的是,我需要翻译的文件比这个脚本可以处理的要大得多(> 1 GB)。

这就是 Hadoop 的用武之地。最简单的解决方案可能是用 Java 编写 MapReduce 作业,但鉴于我缺乏 Java 技能,这不是一个选择。所以我想用 Python 或 Ruby 编写一个映射器脚本,我远非专家,但至少可以导航。

我当时的计划是做以下事情:

  1. 使用 StreamXmlRecordReader 逐条解析文件记录
  2. 使用破解映射反序列化
  3. 用制表符隔开的元素的简单反刍来减少它

然而,这种方法一直失败。我使用了各种 Ruby/Wukong 脚本,但都没有成功。这是一个基于这里的文章

此作业和其他作业失败如下:

第一个问题是我不知道哪里出了问题:我的脚本或 StreamXmlRecordReader。

第二个问题是,一位亲切而乐于助人的专家告诉我,由于 StreamXmlRecordReader 不会产生额外的记录分隔符,这种方法可能行不通,我需要单行阅读,grep对于行,将所有内容堆叠起来,直到获得 /row,然后对其进行解析。

这是最简单的方法吗?如果是,我如何才能最好地做到这一点?

性能不是一个大问题,因为这些文件每隔几周左右就会被批处理一次,以防万一。

0 投票
1 回答
15869 浏览

powershell - Windows Powershell 读取制表符分隔文件问题

好的,所以我想要完成的工作理论上应该很容易,但我不知道出了什么问题。我正在尝试使用 import-csv cmdlet 读取 .tsv 文件。

我的语法是:

问题是这仅显示我文件中的第一列。为什么没有显示其他数据列?我在记事本中检查了文件,以验证数据实际上是否由选项卡分隔,并且确实如此。

任何帮助,将不胜感激。

0 投票
2 回答
12820 浏览

c# - NPOI 支持 CSV/TSV?

我将 NPOI 库与 C# 应用程序一起使用。

我正在创建的是一个报告系统,它可以自动读取并从 Excel 表中提取数据。我得到了一个规范,通知我需要在我的系统中摄取的所有报告都是 .xls 格式,但现在情况似乎并非如此。

我想知道是否可以使用 NPOI 库读取 CSV 或 TSV 文件?我已经爬过网络,但似乎只能找到与该库的 Java 版本相关的答案。

任何帮助将不胜感激,谢谢:)

0 投票
5 回答
7724 浏览

csv - 如何将 CSV/TSV 数据导入 Couch DB?

如何将 CSV/TSV 数据导入 Couch DB?

0 投票
2 回答
2011 浏览

php - 如何使用 PHP 验证上传文件是否包含制表符分隔的数据?

我想验证上传的文件是否用制表符分隔符分隔。我的文件不是.CSV. 有谁知道如何在 PHP 中做到这一点?提前致谢。