像 SO 上的许多人一样,我经常用几种语言写作。当涉及到计划的东西时,(甚至回答一些 SO 问题),我实际上是用一些未指定的混合语言思考和写作的。尽管我曾经被教导使用流程图或类似 UML 的图表来做到这一点,但回想起来,我发现“我的”伪代码语言具有C
, Python
, Java
, bash
, Matlab
, perl
,的组件Basic
。我似乎无意识地选择了最适合表达概念/算法的成语。
常见的习惯用法可能包括类似 Java 的范围大括号、pythonic 列表推导或缩进、C++ 类继承、C# 样式 lambda、matlab 类切片和矩阵运算。
我注意到人们实际上很容易准确地识别出我正在尝试做什么,而且人们很容易智能地翻译成其他语言。当然,这一步涉及考虑极端情况,以及每种语言表现出特殊行为的时刻。
但实际上,这些语言中的大多数共享一个关键字和库函数的子集,它们的行为通常相同——数学函数、类型名称等while
。显然,我必须排除许多“奇怪”的语言,如 lisp、APL 衍生物,但是...for
if
所以我的问题是,
识别文本文件的编程语言的代码是否已经存在?(与 eclipse 的语法树或 google translate 的语言猜测功能相比,这肯定是一个更简单的任务,对吧?)事实上,SO 语法高亮器会做这样的事情吗?
理论上是否有可能创建一个单一的解释器或编译器来识别您在任何时候使用的语言习语并(可能“智能地”)执行或转换为可运行的形式。并标记我的语法在行为方面模棱两可的极端情况。我看到的直接困难包括:知道何时在缩进相关模式和大括号相关模式之间切换,识别有趣的运算符(如
*pointer
vs*kwargs
)以及知道何时使用列表和类似数组的表示。是否存在可以管理这种灵活口译的语言或口译员?
我是否错过了实现这一目标的明显障碍?
编辑
感谢大家的回答和想法。我计划编写一个基于约束的启发式翻译器,它可能会“解决”预期含义的代码并翻译成真正的 python 代码。它会注意到来自许多常用语言的关键字,并将使用句法线索来消除人类意图的歧义——比如空格、括号、可选的辅助词(如let
or then
)、变量先前使用方式的上下文等,以及常用约定的知识(如大写名称、 i 用于迭代,以及对变量/方法命名的一些简单的有限理解,例如包含单词get
, asynchronous
, count
, last
,previous
等my
)。在真正的伪代码中,变量命名与操作本身一样具有信息量!
使用这些线索,它将创建关于每个操作的实现的假设(如基于 0/1 的索引、何时应捕获或忽略异常、哪些变量应该是 const/global/local、从哪里开始和结束执行以及什么位应该在单独的线程中,注意数字单位何时匹配/需要转换)。每个假设都有一个给定的确定性 - 程序将列出每个语句的假设,因为它会将您编写的内容哄骗成可执行的东西!
对于每个假设,如果您不喜欢最初的解释,您可以“澄清”您的代码。图书馆问题非常有趣。我的翻译器,就像一些 IDE 一样,会读取所有模块中可用的所有定义,使用一些关于哪些类/方法最常使用以及在什么上下文中使用的统计数据,然后猜测!(在程序中添加一个注释来说明它为什么会这样猜测......)我想它应该尝试执行所有内容,并警告你它不喜欢什么。它应该允许任何事情,但如果您模棱两可,请让您知道几种替代解释是什么。
它肯定需要一段时间才能管理像@Albin Sunnanbo 的例子这样不寻常的ImportantCustomer
例子。但我会让你知道我是怎么过的!