11

我正在抓取一个静态 html 站点并将内容移动到数据库支持的 CMS 中。我想在 CMS 中使用 Textile。

是否有将 HTML 转换为 Textile 的工具,所以我可以抓取现有网站,将 HTML 转换为 Textile,并将该数据插入数据库?

4

5 回答 5

1

我知道这是一个老问题,但前几天我发现自己试图这样做并且没有找到任何有用的东西,直到我找到Pandoc。它也可以转换大量其他标记格式——非常棒。

于 2014-03-23T14:55:43.397 回答
0

这是一个转换 html 2 Textile 的 c# lib。虽然它是带有添加物的纺织品。不是纯纺织品。

于 2008-12-24T06:59:14.997 回答
0

由于没有javascript实现,我写了一个: https ://github.com/cmroanirgo/to-textile

目前它有点原始,因为它是“to-markdown”等价物的盲端口,但应该可以完成工作。

于 2017-03-25T02:55:11.400 回答
-1

试试这个简单的java代码希望它对你有用

import java.net.*;
import java.io.*;

class Crawle
{

public static void main(String ar[])throws Exception
{


URL url = new URL("https://www.google.co.in/#q=i+am+happy");
InputStream io =  url.openStream();
BufferedReader br = new BufferedReader(new InputStreamReader(io));
FileOutputStream fio = new FileOutputStream("crawler/file.txt");
PrintWriter pr = new PrintWriter(fio,true);
String data = "";
while((data=br.readLine())!=null)
{
pr.println(data);
System.out.println(data);
}

}
}
}
于 2014-03-23T15:13:44.080 回答
-2

这是一个简单的标记替换,没有什么是好的正则表达式无法解决的。

我推荐 Perl、LWP::Simple 和一些正则表达式来完成整个事情(爬取、剥离设计和菜单、转换为纺织品,然后发布到数据库。)

于 2008-10-06T20:03:13.797 回答