问题标签 [data-dump]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
335 浏览

xml - 如何让 Chrome 和 Firefox 完全显示格式错误的 XML?

我希望 Chrome 和 Firefox 以完整的纯文本格式显示格式错误的 XML,而不是告诉我它格式错误并显示有问题的纯文本的前几个字符。

在转储变量等时,这可能对任何 Web 开发人员有用。

0 投票
1 回答
1107 浏览

python - 数据转储的最佳压缩算法是什么

我正在从我的站点创建数据转储以供其他人下载和分析。每个转储都将是一个巨大的 XML 文件。

我试图找出最好的压缩算法:

  • 有效压缩(CPU 方面)
  • 制作尽可能小的文件
  • 相当普遍

我知道压缩的基础知识,但不知道哪种算法符合要求。我将使用 MySQL 和 Python 来生成转储,所以我需要一个好的 Python 库。

0 投票
1 回答
251 浏览

python - 如何使这个python脚本内存高效

该片段将所有文档从我的数据库中提取出来,并将它们转储到 gzip 压缩文件中。docs_to_dump 是一个 django 对象,包含所有要转储的文本文档。

不幸的是,它也消耗了太多的内存,以至于操作系统对其进行了核对。我认为通过写入“类文件对象”,压缩文件将即时生成,并且内存将保持相对较低。相反,它占用了数百 MB,然后崩溃。

我不是压缩专家,但我的印象是整个压缩文件都存储在内存中。

我应该这样做有更好的方法吗?

编辑——整个文件在这里:https ://bitbucket.org/mlissner/search-and-awareness-platform-courtlistener/src/2ca68efd8017/data-dumps/data-dumper.py

0 投票
2 回答
39 浏览

dataset - Where Can I find Social Sites Evaluation Data?

I am working on evaluation methods in online social communities, and I need real-word data to apply my algorithms on. What I exactly need is some records that shows the votes that users have given to each other in a social network, forum, Q&A community, etc. I need VoterID, VoteeID, Time and Vote Value. I downloaded a datadump of stackoverflow and extracted data from them. The problem here is that the votes files does not contain voterID (exepting for VoteTypeID=5). Can anyone help me find such a dataset? Thanks

0 投票
6 回答
17651 浏览

perl - 如何对 Data::Dumper 的输出进行排序?

我想转储我的对象和散列的值,但它一直在乱序打印键。如何以(递归)排序顺序转储键?

0 投票
0 回答
411 浏览

sas - SAS 存储过程结果集转储

我尝试完成的任务是将远程 SAS 机器通过任何工具计算的结果集导出到 CSV/XLSX 文件。

我正在谈论的结果集大小为 500K 行和 100MB XLSX 近似文件大小。

SAS 服务器详细信息:

操作系统:Linux for X64

产品:SAS 9.2 64 位,修订版 920_11w03

我从 MS Excel 收到的错误代码(尝试通过 SAS Add-in for Office 4.2 获取结果集时)如下所示:

System.OutOfMemoryException: Exception of type 'System.OutOfMemoryException' was thrown. at System.String.InternalCopy(String str) at System.Text.StringBuilder.ToString() at SAS.Report.Models.XML.XMLIQData.XMLCSV.CreateValueElement(Char ch, ArrayList valueList, Values& values, StringBuilder& sb, Boolean& inDataString) at SAS.Report.Models.XML.XMLIQData.XMLCSV.TokenizeString(String csvString, ArrayList valueList, ValuesList& valuesList, Int32& valuesCount, Boolean isOLAP) at SAS.Report.Models.XML.XMLIQData.XMLCSV.LoadElement(ReportElement parent) at SAS.Report.Models.XML.XMLReportElement.LoadSubelement(String name, XmlNode node, XMLReportElement xmlClass, ReportElement parent) at SAS.Report.Models.XML.XMLReportElement.LoadSubelements(String name, XMLReportElement xmlClass, ReportElement parent) at SAS.Report.Models.XML.XMLIQData.XMLEmbeddedData.LoadElement(ReportElement parent) at SAS.Report.Models.XML.XMLReportElement.LoadSubelement(String name, XmlNode node, XMLReportElement xmlClass, ReportElement parent) at SAS.Report.Models.XML.XMLReportElement.LoadSubelement(String name, XMLReportElement xmlClass, ReportElement parent) at SAS.Report.Models.XML.XMLIQData.LoadElement(ReportElement parent) at SAS.Report.Models.XML.XMLReportElement.LoadSubelement(String name, XmlNode node, XMLReportElement xmlClass, ReportElement parent) at SAS.Report.Models.XML.XMLData.LoadElement(ReportElement parent) at SAS.Report.Models.XML.XMLReportElement.LoadSubelement(String name, XmlNode node, XMLReportElement xmlClass, ReportElement parent) at SAS.Report.Models.XML.XMLReportElement.LoadSubelements(String name, XMLReportElement xmlClass, ReportElement parent) at SAS.Report.Models.XML.XMLSASReport.LoadElement(ReportElement parent) at SAS.Report.Models.XML.XMLParse.CreateDOM(Stream file, String fragment, Hashtable customObjectMap) at SAS.Report.Models.XML.XML.ReadReport(Stream inputStream, Hashtable customObjectMap) at SAS.Report.Models.XML.XML.ReadReport(FileInfo file, Hashtable customObjectMap, String prefixUniqueId) at SAS.Report.Models.XML.XML.ReadReport(String filename, Hashtable customObjectMap, String uniqueIdPrefix) at SAS.AMO.Reports.SASReport.FromXML(String filename, Hashtable customObjectMap, Int32 fileId) at SAS.OfficeAddin.ExcelReports.ExcelSASReport.FromXml(String filename, Int32 fileId) at SAS.OfficeAddin.ExcelAddin.OpenSASReport(JobContext context) at SAS.OfficeAddin.ExcelAddin.ProcessResults(JobContext context) at SAS.OfficeAddin.OfficeAddinBase.PostProcessJob(JobContext jobContext, Boolean promptOnErrors)

请就任何可以帮助使数据可访问的软件提供建议(最终目标是从从 SAS 存储过程中检索到的数据制作数据透视表)。

0 投票
0 回答
141 浏览

data-dump - User behaviors analysis, stackoverflow public data dump

I have a question - what would be the best way to figure out in which timezone particular user is situated based on the location field data? It seems like considerable amount of users have this field populated with some data, the form, however, is far from being normalized.

While I am figuring out ways to normalize users locations and infer timezones, I wonder, if someone did it before and could share some experience, or maybe (ideally) there is some magic webservice which I can ask for timezones by a given location?

So far I am running through fairly simple process - tokenizing the field, sorting, grouping by frequencies and assigning timezones manually based on my best knowledge.

0 投票
1 回答
229 浏览

symfony1 - 我无法执行数据加载(Symfony 1.4 Doctrine)

我的 symfony 项目有一些问题。
我有一个带有 InnoDB 表的 MySQL 数据库。
我尝试创建简单的树形菜单:

架构.yml

在后端创建元素后,我执行data:dump并获取此代码

夹具:

如果我尝试运行,我已经失去了项目之间的关系

我不明白出了什么问题。

编辑:

前:

0 投票
1 回答
2286 浏览

sql - 如何在 SQL Server 2008 中增加 XML 数据类型

我正在尝试在 SQL Server 2008 中导入大型 XML 数据类型,但收到以下错误消息:

消息 6365,级别 16,状态 1,第 3 行
XML 操作导致 XML 数据类型的大小超过 2GB。操作中止。

有谁知道我可以做些什么来规避这个/增加 SQL Server 的限制?我终于弄清楚了如何导入Data.Stackexchange.com数据转储,但现在它告诉我 XML 文件对于我导入的方式来说太大了。

使用:

如果您需要任何其他信息,请让我知道。谢谢!

找到了这个网站,希望它不是最好的资源......

编辑感谢@Bummi ,这似乎是 SQL Server 的一个限制有谁知道/如果我能解决这个问题?

0 投票
1 回答
749 浏览

wikipedia - 如何使用 Google 的 BigQuery 查询 Wikipedia 全文转储

我正在 Google API 中测试 BigQuery,并希望在 Wikipedia 全文转储上运行一些查询。Google 示例数据不包括全文转储(仅修订历史记录)。

维基百科转储的来源很少,例如亚马逊上的这个:http: //aws.amazon.com/datasets/2506

我的问题是:有没有办法在不将它们转移到 Google BigQuery 项目的情况下查询这些数据集?等效地,BigQuery 是否有一种方法可以直接与这些数据集之一进行通信?

如果 BigQuery 不可能,那么 Amazon EC2 中是否有可以做同样事情的等效服务?

谢谢你。