13

我有一个巨大的文件,我必须在特定位置插入某些字符。在 C# 中执行此操作而无需再次重写整个文件的最简单方法是什么。

4

10 回答 10

10

文件系统不支持在文件中间“插入”数据。如果您确实需要可以以某种方式写入的文件,我建议您考虑使用嵌入式数据库。

您可能想看看SQLiteBerkeleyDB

再说一次,您可能正在使用文本文件或旧的二进制文件。在这种情况下,您唯一的选择是重写文件,至少从插入点到结尾。

我会看看FileStream类在 C# 中执行随机 I/O。

于 2008-09-19T01:10:35.070 回答
3

您可能需要从插入更改到最后的位置重写文件。您最好始终写入文件末尾并使用诸如排序和 grep 之类的工具以所需的顺序获取数据。我假设您在这里谈论的是文本文件,而不是二进制文件。

于 2008-09-19T00:58:17.017 回答
2

没有办法在不重写字符的情况下将字符插入文件。使用 C# 可以使用任何 Stream 类来完成。如果文件很大,我建议您在 C# 代码中使用 GNU Core Utils。他们是最快的。我曾经使用核心工具(大小为 4GB、8GB 或更多等)处理非常大的文本文件。像 head、tail、split、csplit、cat、shuf、shred、uniq 这样的命令确实对文本操作有很大帮助。

例如,如果您需要将一些字符放入 2GB 文件中,您可以使用 split -b BYTECOUNT,将输出放入文件中,将新文本附加到其中,然后获取其余内容并添加到其中。这应该比任何其他方式都快。

希望它有效。试试看。

于 2008-09-19T02:06:32.190 回答
1

您可以使用随机访问来写入文件的特定位置,但您无法以文本格式执行此操作,您必须直接使用字节。

于 2008-09-19T01:01:42.703 回答
1

如果您知道要将新数据写入的具体位置,请使用 BinaryWriter 类:

using (BinaryWriter bw = new BinaryWriter (File.Open (strFile, FileMode.Open)))
{
    string strNewData = "this is some new data";
    byte[] byteNewData = new byte[strNewData.Length];

    // copy contents of string to byte array
    for (var i = 0; i < strNewData.Length; i++)
    {
        byteNewData[i] = Convert.ToByte (strNewData[i]);
    }

    // write new data to file
    bw.Seek (15, SeekOrigin.Begin);  // seek to position 15
    bw.Write (byteNewData, 0, byteNewData.Length);
}
于 2009-01-22T13:46:45.080 回答
1

你可以看看这个项目: Win Data Inspector

基本上,代码如下:

// this.Stream is the stream in which you insert data

{

long position = this.Stream.Position;

long length = this.Stream.Length;

MemoryStream ms = new MemoryStream();

this.Stream.Position = 0;

DIUtils.CopyStream(this.Stream, ms, position, progressCallback);

ms.Write(data, 0, data.Length);

this.Stream.Position = position;

DIUtils.CopyStream(this.Stream, ms, this.Stream.Length - position, progressCallback);

this.Stream = ms;

}

#region Delegates

public delegate void ProgressCallback(long position, long total);

#endregion

DIUtils.cs

public static void CopyStream(Stream input, Stream output, long length, DataInspector.ProgressCallback callback)
{
    long totalsize = input.Length;
    long byteswritten = 0;
    const int size = 32768;
    byte[] buffer = new byte[size];
    int read;
    int readlen = length < size ? (int)length : size;
    while (length > 0 && (read = input.Read(buffer, 0, readlen)) > 0)
    {
        output.Write(buffer, 0, read);
        byteswritten += read;
        length -= read;
        readlen = length < size ? (int)length : size;
        if (callback != null)
            callback(byteswritten, totalsize);
    }
}
于 2016-04-20T15:17:47.980 回答
0

根据您项目的范围,您可能希望决定将每一行文本与您的文件一起插入到表数据结构中。有点像数据库表,这样您就可以在任何给定时刻插入到特定位置,而不必每次都读入、修改和输出整个文本文件。这是因为您的数据正如您所说的那样“巨大”。您仍然会重新创建该文件,但至少您以这种方式创建了一个可扩展的解决方案。

于 2008-09-19T01:05:42.257 回答
0

这可能是“可能的”,具体取决于文件系统如何存储文件以在中间快速插入(即添加额外的)字节。如果远程可行,则可能只能一次完成一个完整的块,并且只能通过对文件系统本身进行低级修改或使用文件系统特定接口来进行。

文件系统通常不是为这种操作而设计的。如果你需要快速插入,你真的需要一个更通用的数据库。

根据您的应用程序,中间立场是将您的插入内容捆绑在一起,因此您只需对文件进行一次重写而不是二十次。

于 2008-09-19T01:34:00.877 回答
0

您将始终必须从插入点重写剩余的字节。如果该点为 0,那么您将重写整个文件。如果在最后一个字节之前是 10 个字节,那么您将重写最后 10 个字节。

无论如何,没有直接支持“插入到文件”的功能。但是下面的代码可以准确地做到这一点。

var sw = new Stopwatch();
var ab = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ ";

// create
var fs = new FileStream(@"d:\test.txt", FileMode.OpenOrCreate, FileAccess.ReadWrite, FileShare.ReadWrite, 262144, FileOptions.None);
sw.Restart();
fs.Seek(0, SeekOrigin.Begin);
for (var i = 0; i < 40000000; i++) fs.Write(ASCIIEncoding.ASCII.GetBytes(ab), 0, ab.Length);
sw.Stop();
Console.WriteLine("{0} ms", sw.Elapsed.TotalMilliseconds);
fs.Dispose();

// insert
fs = new FileStream(@"d:\test.txt", FileMode.OpenOrCreate, FileAccess.ReadWrite, FileShare.ReadWrite, 262144, FileOptions.None);
sw.Restart();
byte[] b = new byte[262144];
long target = 10, offset = fs.Length - b.Length;
while (offset != 0)
{
    if (offset < 0)
    {
        offset = b.Length - target;
        b = new byte[offset];
    }
    fs.Position = offset; fs.Read(b, 0, b.Length);
    fs.Position = offset + target; fs.Write(b, 0, b.Length);
    offset -= b.Length;
}
fs.Position = target; fs.Write(ASCIIEncoding.ASCII.GetBytes(ab), 0, ab.Length);
sw.Stop();
Console.WriteLine("{0} ms", sw.Elapsed.TotalMilliseconds);

为了获得更好的文件 IO 性能,请使用上面代码中的“神奇的两个幂数”。文件的创建使用了 262144 字节 (256KB) 的缓冲区,这根本没有帮助。如果您运行代码,则插入的相同缓冲区执行“性能工作”,您可以从 StopWatch 结果中看到。在我的 PC 上进行的草稿测试给出了以下结果:

创建时间为 13628.8 毫秒,插入时间为 3597.0971 毫秒。

请注意,插入的目标字节是 10,这意味着几乎整个文件都被重写了。

于 2011-12-08T20:30:13.253 回答
0

为什么不放一个指向文件末尾的指针(字面意思是文件当前大小的四个字节),然后在文件末尾写入插入数据的长度,最后是要插入的数据本身。例如,如果你在文件中间有一个字符串,并且你想在字符串中间插入几个字符,你可以在字符串中的一些四个字符上写一个指向文件末尾的指针,然后写这四个字符与您首先要插入的字符一起。这都是关于订购数据的。当然,只有当您自己编写整个文件时才能这样做,我的意思是您没有使用其他编解码器。

于 2017-05-16T17:03:29.717 回答