当您通过 org-protocol 和浏览器捕获时,无论是通过capture();
function 还是encodeURIComponent(window.getSelection());
,文本似乎都以纯文本形式传递给 Emacs org-protocol 服务器。
有没有办法提取一些 HTML 标题/CSS 样式信息以保持最少的格式以提高可读性?大多数网站都不是纯文本,所以即使选择一个标题和几个段落也会像垃圾一样。
编辑:我找到pandoc,它将进行 HTML 到 org-mode 的转换,但结果是矫枉过正。有没有办法只从选定的对象中获取格式,而不是盲目解析 HTML 块?