3

我有一个包含 APA 引文样式文本的电子表格,我想将它们拆分为author(s)datetitle

引用的一个例子是:

Parikka, J. (2010). Insect Media: An Archaeology of Animals and Technology. Minneapolis: Univ Of Minnesota Press.

鉴于此字符串在字段 I2 中,我设法执行以下操作:

名称:=LEFT(I2, FIND("(", I2)-1)产量Parikka, J.

日期:=MID(I2,FIND("(",I2)+1,FIND(")",I2)-FIND("(",I2)-1)产量2010

但是,我一直在提取标题的名称Insect Media: An Archaeology of Animals and Technology.

我当前的公式=MID(I2,FIND(").",I2)+2,FIND(").",I2)-FIND(".",I2))只返回部分标题 - 输出应显示).和以下之间的每个字符.

我试过=REGEXEXTRACT(I2, "\)\.\s(.*[^\.])\.\s" )了,这通常有效,但不会停在第一个“。” - 就像这个例子:

Sanders, E. B.-N., Brandt, E., & Binder, T. (2010). A framework for organizing the tools and techniques of participatory design. In Proceedings of the 11th biennial participatory design conference (pp. 195–198). ACM. Retrieved from http://dl.acm.org/citation.cfm?id=1900476

错误在哪里?

4

2 回答 2

2

可以通过以下方式找到标题(至少在您给出的两个示例中):

=MID(I2,find("). ",I2)+3,find(". ",I2,find("). ",I2)+3)-(find("). ",I2)+3)+1)

英文:获取从第一次出现之后开始的子字符串).,直到并包括第一次出现.以下。

如果您想使用REGEXEXTRACT,那么这有效(在您的两个示例中)。(您还可以查看Regex101 演示。):

=REGEXEXTRACT(I3,"(?:.*\(\d{4}\)\.\s)([^.]*\.)(?: .*)")

错误在哪里?

在您的表达式中,您正在捕获(.*[^\.]),它贪婪地包含任意数量的字符,后跟字符类中的一个字符not (backslash or dot),这意味着可以捕获多个句子。表达式以\.\s结尾,但未被捕获,因此捕获组将在句点-然后-空格之前结束,而不是包含它。

于 2016-07-05T02:35:58.573 回答
0

尝试:

=split(SUBSTITUTE(SUBSTITUTE(I2, "(",""), ")", ""),".")

如果在 2010 年左右不替换括号,它认为是负数 -2010。

对于您的标题,请尝试将索引拆分添加到您现有的公式中:

=index(split(REGEXEXTRACT(A5, "\)\.\s(.*[^\.])\.\s" ),"."),0,1)&"."
于 2016-07-04T01:14:34.460 回答