4

假设我有一个词的基本形式和Penn Treebank Tag Set中的一个标签。我怎样才能得到共轭形式?例如对于“做”和“VBN”我怎样才能“完成”?

我认为这个任务已经在一些 nlp 库中实现了,所以我宁愿不发明自行车。存在这样的东西吗?

4

2 回答 2

0

您在这里要做的是创建一个稀疏数组来保存答案,可通过术语本身作为一个键进行索引,并将 PTTS 代码(CC、TO、VBD)作为另一个键。

于 2010-04-10T08:11:21.640 回答
0

如果你有一堂课:

public Treebank {
    public String conjugate(String base, String formTag);

    ...
}

然后:

String conjugated = treebank.conjugate(base, formTag);

如果您没有 Treebank 类,它可能看起来像这样:

public Treebank {
    private Map<String, Map<String, String>> m_map = new HashMap<String, Map<String, String>>();

    public Treebank() {
        populate();
    }

    public String conjugate(String base, String formTag) {
        return m_map.get(base, formTag);
    }

    private void populate() {
        InputStream istream = openDataFile();

        try {
            for (Record record = readRecord(istream); record !== null; record = readRecord(istream)) {

                // Add the entry
                Map<String, String> entry = m_map.get(record.base);

                if (entry == null)
                    entry = new HashMap<String, String>();

                entry.put(record.formTag, record.conjugatedForm);
                m_map.put(record.base, entry);
           }
        }
        finally {
            closeDataFile(istream);
        }
    }

    // Data management - to be implemented.
    private InputStream openDataFile()                     { ... }
    private Record      readRecord(InputStream istream)    { ... }
    private void        closeDataFile(InputStream istream) { ... }

    private static class Record {
        String base;
        String formTag;
        String conjugatedForm;
    }
}

更好的解决方案可能涉及数据库而不是数据文件。我还将数据访问代码重构为数据访问对象。

于 2010-04-10T08:14:48.107 回答