0

我正在尝试从 Microsoft Academic Graph 中检索 0 级 FieldOfStudy“计算机科学”的整个列表“学习领域”。到目前为止,我有以下 curl 代码来检索一般字段:

curl -X POST \
  https://api.labs.cognitive.microsoft.com/academic/v1.0/evaluate \
  -H 'Cache-Control: no-cache' \
  -H 'Content-Type: application/x-www-form-urlencoded' \
  -H 'Ocp-Apim-Subscription-Key: my_subscription_key' \
  -d 'expr=Ty%3D'\''6'\''&attributes=Id%2CFL%2CFN%2CFC.FN%2CFP.FN%2CFC.FId%2CFP.FId'

这不会引发任何错误,但需要进一步修改以便检索:

  1. “计算机科学”研究领域的所有研究子领域(子、孙等)。
  2. 不限于前 1000 个研究领域(POST 评估的最大限制)。

虽然我在 curl 中这样做,但我也愿意接受 python 方法,以防它是一个更好的选择。

4

1 回答 1

0

如果您的目标是枚举计算机科学下的所有后代研究领域,则您需要进行递归调用,因为每个研究领域(即父母和孩子,而不是祖父母或孙子女)仅对直接级别进行索引。

幸运的是,使用查询表达式“Composite(FP.FId=parent_fos_id)”来完成这是一件相当简单的事情。

这是一些示例 C# 代码,用于获取所有后代的研究领域(抱歉,我不精通 Python,但应该很容易弄清楚我在做什么):

static void GetAllDescendantFieldsOfStudy(long fieldOfStudyId, int level, ref SortedSet<long> descendants)
{
    var client = new HttpClient();
    client.DefaultRequestHeaders.Add("Ocp-Apim-Subscription-Key", "_subscription_key_");

    var jsonString = 
        client
        .GetStringAsync(
            new Uri($"https://api.labs.cognitive.microsoft.com/academic/v1.0/evaluate?expr=Composite(FP.FId={fieldOfStudyId})&model=latest&count=1000&offset=0&attributes=Id,DFN"))
        .Result;

    var jsonObject = Newtonsoft.Json.Linq.JObject.Parse(jsonString);

    var childCount = jsonObject["entities"].Count();

    if (childCount > 0)
    {
        var children = jsonObject["entities"];

        foreach (var child in children)
        {
            var childId = child.Value<long>("Id");
            if (!descendants.Contains(childId))
            {
                descendants.Add(childId);

                Console.WriteLine($"{new String('\t', level)}Expanding {child.Value<string>("DFN")}");

                GetAllDescendantFieldsOfStudy(childId, level + 1, ref descendants);
            }
        }
    }
}

要使用它,只需使用计算机科学 ID 调用它,即:

var descendants = new SortedSet<long>();

GetAllDescendantFieldsOfStudy(41008148, 0, ref descendants);

不幸的是,没有办法绕过 1000 的最大结果计数。您只需使用偏移量来分解您的请求。

希望这可以帮助!

于 2020-01-21T17:41:59.883 回答