我想将以下记录(关键字行在数据库表的一列中)拆分为用于构建方面搜索的逻辑术语:
Ballett, Fernsehen, Film, Sachbücher/Musik, Film, Theater/Theater, Ballett/Allgemeines, Nachschlagewerke, Theater, Bühnenbildner (Einz.), Deutsches Theatermuseum München, München; Museen, Stepanek, Siegfried, Deutsches Theatermuseum; Kategorien - Lexika & Nachschlagen - Brockhaus, Kinder- & Jugendbücher, Jugendbücher
结果应该是:
Ballett
Fernsehen
Film
Sachbücher/Musik
Film
Theater/Theater
Ballett/Allgemeines
Nachschlagewerke
Theater
Bühnenbildner (Einz.)
Deutsches Theatermuseum München
München
Museen
Stepanek
Siegfried
Deutsches Theatermuseum
Kategorien
Lexika & Nachschlagen
Brockhaus
Kinder- & Jugendbücher
Jugendbücher
我尝试了不同的方法,但我没有找到如何正确拆分标记化长记录的解决方案。Pattern Tokenizer 可以吗?
感谢提示