问题标签 [array-column]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 PySpark 将词汇元素与 LDA 模型中的索引匹配
我想从.describeTopics()
输出中获取 Spark LDA 模型的术语索引,并将它们与计数矢量化器词汇表中的适当术语相匹配。这里是摩擦点:
我想要的输出将是上面带有数组列的 Dataframe terms
,其中包含基于termIndices
.
这是设置问题的代码:
这是我尝试过的:
运行此代码时,我实际上并没有收到错误,但它没有显示任何内容。也许 UDF 不是正确的方法。我如何将索引termIndices
与模型词汇表匹配terms
并使其成为一个数组列?