情况
我目前正在学习 Tensorflow 并且第一次尝试(在遵循/尝试 MINST 教程之后)我想创建一个模型(可能是 RNN)来做一些基本的字符串格式化:
我知道对于以下情况,我可能不需要像深度学习这样复杂的东西,但这只是为了训练自己。
我有一组假定的“干净地址”字符串,我想在其中提取实际的干净地址。
她的就是我想要得到的那种转变:
RUE DE MADAGASCAR --> RUE DE MADAGASCAR
ZI DE LA PLAINE
55 RUE DU 1ER SEPTEMBRE 1944 --> 55 RUE DU 1ER SEPTEMBRE 1944
ZONE INDUSTRIELLE RUE DE LA VALLEE B.P. 8 --> RUE DE LA VALLEE
BP 62 AVENUE BECQUEREL --> AVENUE BECQUEREL
291 VOIE ATLAS --> 291 VOIE ATLAS
12 RUE ARMAND BUSQUET ZONE INDUSTRIELLE --> 12 RUE ARMAND BUSQUET
DOSSIER MLOC 5 RUE AMABLE LOZAI --> 5 RUE AMABLE LOZAI
ZI CAEN CANAL -->
RUE DE L'EUROPE ZI PORTUAIRE --> RUE DE L'EUROPE
BP 5229 BOULEVARD HENRY BECQUEREL CAMPUS JULES HOROWITZ --> BOULEVARD HENRY BECQUEREL
GIE MONSIEUR GAUTIER BOULEVARD H. BECQUEREL BP 5027 --> BOULEVARD H. BECQUEREL
21 PLACE DE LA REPUBLIQUE --> 21 PLACE DE LA REPUBLIQUE
18 RUE DE LA GIRAFE --> 18 RUE DE LA GIRAFE
21 RUE DES GOUDRIERS --> 21 RUE DES GOUDRIERS
AVENUE STRASSBURGER --> AVENUE STRASSBURGER
7 RUE DE L'EGLISE --> 7 RUE DE L'EGLISE
1060 RUE LEON FOUCAULT ZI DE LA SPHERE --> 1060 RUE LEON FOUCAULT
我需要更多示例:这是一个包含 200 个元素的电子表格的链接(计划将其扩展到 1000 - 5000 个元素)
如您所见,有很多可识别的模式:
- 不要拿
BP
单词和后面的 2 或 4 位数字 - 不要服用
ZI
,ZA
否则Zone d'activiter
... - 地址通常看起来像
00 (Rue|Voie|Avenue|...) nameOfStreet
- ETC...
我认为如何进行
我正在尝试获取作为输入字符串一部分的输出字符串。它应根据上述模式删除单词。
我认为我将继续使用 RNN 类型的图,因为它应该检测到诸如“有一个”BP”之类的东西,所以我不接受这个词,如果下一个输入是 2 或 4 位字符串,我不是拿那些”,我认为应该有某种记忆。
这完全取决于我想要输入数据的方式。我想我有两种或三种方法可以做到这一点:
- 输入单个单词(以空格分隔)
- 输入整个字符串(整个地址)
- 输入一个字符串,然后将其拆分到更深层?
事情是:
如果我输入单个单词,我如何标记字符串分隔?
如果我输入整个字符串,这似乎有点像丢失了,因为
系统只会获取或删除单个单词。第三个选项(将两者混合)是否有意义?
是否可以批量训练并使用“批量部分”输入多个单词,每个批次代表和地址。
另外,我想知道在我的系统中,节点的权重是否将全部为 0 和 1(因为它应该只能获取或删除单个单词),或者它是否将是中间值,例如保留单词的概率。
过程回顾
- 创建所有单个单词的字典
- 将我的字符串填充到相同的长度?
- 将我所有的字符串(或单词?)转换为一维数组
- 定义图表
- 小批量输入字符串(或单词?)
- 测试和显示精度(输出字符串应该与预期输出完全匹配还是预期输出和输出之间的差异百分比更有趣?)
- 保存图表
- 用它来格式化我的字符串
非常感谢您阅读所有内容,任何帮助将不胜感激。
特别是关于我前进的总体方向,以及将数据输入图表的方式。