0

我已经得到了这两个提要(在生产中会有更多)关于一个事件的票价 - 这两个提要的格式不同,但基本上显示相同的信息。

我想做的是比较价格属性并找到最低价格,我知道如何比较实际价格

if(floatval($feed1['price']) > floatval($feed2['price']]){
    return $feed1['price'];
}
else {
    return $feed2['price'];
}

但是让我难以理解的是如何确保我比较相同的事件价格,因为它们来自不同格式的提要。

IE。我如何从两个提要中比较伦敦 HMV 音乐会的常设价格?

饲料 1

<type id="4558" name="Rolling Stones Concert" url="http://example1.com">
    <event id="52115351" name="HMV forum - London">
        <ticket name="Stalls" id="1354855" price="120"/>
        <ticket name="Standing" id="4654845" price="85"/>
    </event>

    <event id="52115351" name="Webley Arena - London">
        <ticket name="Stalls" id="4556147" price="110"/>
        <ticket name="Standing" id="9743466" price="95"/>
    </event>
</type>

饲料 2

<type id="5786" name="Rolling Stones Concert - World Tour" url="http://example2.com">
    <market id="45645634" name="London - HMV">
        <unit name="Seating" id="212770047" price="125"/>
        <unit name="Standing" id="212770046" price="80"/>
    </market>

    <market id="45645914" name="London - Wembley">
        <unit name="Seating" id="212770047" price="109"/>
        <unit name="Standing" id="212770046" price="99"/>
    </market>
</type>
4

1 回答 1

2

您正在寻找一种叫做信息提取(IE)的东西。这通常通过自然语言处理 (NLP)完成,例如,您需要一些能够分析的程序

<type id="4558" name="Rolling Stones Concert" url="http://example1.com">

在第一个提要中表示与

<type id="5786" name="Rolling Stones Concert - World Tour" url="http://example2.com">

尽管存在差异,但在第二个提要中:

id="4558"                     =/=  id="5786"
name="Rolling Stones Concert" =/=  name="Rolling Stones Concert - World Tour"
<event>                       =/=  <market>
id="45645634"                 =/=  id="45645914"
name="HMV forum - London"     =/=  name="London - HMV"
<ticket>                      =/=  <unit>
name="Stalls"                 =/=  name="Stalls"

正如您可以想象的那样,您将获得的每个新提要都会有所不同。如果您预先分析数据结构(例如<event><market>以及哪些属性属于彼此,那么您可以对这些值运行文本分析并进行相似性分析。

此外,如果有常见的同义词,例如Stalls is Seating(反之亦然),您可以预先降低复杂性。

[feed 1] -- streamline --> [sfeed 1]\                   / [combined feed]
                     ...             X compare / align X
[feed N] -- streamline --> [sfeed N]/                   \ [unknown data]
于 2013-04-17T15:21:25.827 回答