如何导入历史数据?


当过渡到细分时,客户通常希望将历史数据导入到他们要迁移到或评估的工具中。manbetx客户端应用下载

注意:历史导入只能执行到可以接受历史时间戳数据的目的地。大多数分析工具,如Mixpanel, Amplitude, Kissmetrics等都可以很好地处理这类数据。一个不接受历史数据的常见目的地是谷歌Analytics,因为它们的API不能接受历史数据。

使用任何服务器端库,它批量发送请求以提高性能。一旦你有数据要导入,按照以下步骤:

  1. 导出或收集待导入的数据。

    如果数据需要出现在end tools中的历史引用中,则在导出中包含时间戳数据。例如,如果您正在导入电子邮件,并且它与它们加入您的电子邮件列表有关,您可能需要导出时间戳。如果导入时没有指定时间戳,数据将显示从接收数据开始的时间戳

  2. 决定哪些目的地需要接收数据。

    默认情况下,进入Segment的数据将被中继到链接到给定源的所有目的地。若要将数据限制到特定的目的地,则集成对象必须修改。对于历史数据,通常只希望将数据发送到特定的目的地或数据仓库。例如,在node . js设置集成对象,如下所示。

    分析跟踪({事件:升级会员,用户标识:97234974,集成:{所有:,维罗:真正的,谷歌分析:}})
  3. 一旦你完成了这些,你就需要编写一个应用程序或者worker来将数据发送到Segment。

您将需要循环遍历每一组数据,并将其映射到一个段服务器端库方法,或者构建一个匹配的数组HTTP导入API格式请注意,我们建议为这个过程使用段库,因为它们将设置上下文消息字段,如message_id(用于删除)和sent_at(用于正确的客户端时钟倾斜),我们的API将使用它来确保摄入时的正确行为。服务器端库将自动批处理请求,以优化性能并防止线性请求量。这个批处理行为是可以修改的。一些库实现了可配置的最大队列大小,如果您进入队列的请求比客户端刷新请求的速度快得多,则可能丢弃消息。我们建议将库的max queue size参数重写为一个您认为可以在批处理作业中保持的高值。

我们的一位成功的工程师编写了一个alpha原型Node.js应用程序,用于使用HTTP API导入数据,我们将其包括在下面:

示例Node.js导入应用程序

如果服务器端库不能满足您的需求,请使用段批量导入HTTP API请注意,如果您正在使用HTTP API直接重播从段导出的数据,我们建议删除原始数据sent_at,message_id,project_id字段,然后将它们转发给分段。

我们的朋友在MarketLytics写下他们使用alpha原型导入器的经验,并提供一些有用的图像和提示

最后更改:2020年6月24日



从分段开始

细分是将网站和移动应用数据整合到300多个分析和增长工具的最简单方法。
创建免费帐户