关于程序埋点的思考
埋点目的
对于本次修改的数据统计分析程序的埋点,只是为了统计数据中出现的一些不易发现的错误,全部让程序主动跑出来。但是只要是主动抛出统计数据,都属于埋点。
数据埋点是数据分析的准备工作,只有埋点了才可以获得数据进行分析。在做足数据埋点之后,才能拿到想要的目标数据:
- 行为数据:时间、地点、人物、交互、交互的内容;
- 质量数据:浏览器加载情况、错误异常等;
- 环境数据:浏览器相关的元数据以及地理、运营商等;
- 运营数据:PV、UV、转化率、留存率(很直观的数据)
整体调整Python项目规范性之后加入错误数据埋点就属于质量数据部分。
埋点方案
埋点分为前端埋点和后端埋点,常见的埋点方案有
- 前端代码埋点:直接在前端嵌入代码收集目标数据
- 前端无埋点:常见的前端埋点技术。全部采集,按需选取
- 后端代码埋点:直接在后端嵌入代码收集目标数据
此次主要针对不使用第三方数据分析平台的项目进行的后端代码埋点(适用于数据统计分析监控程序这种场景)
后端埋点的设计必然要考虑以下几点:
- 高灵活:可以随时随地手工埋点
- 小影响:对源代码侵入少
- 已更新:埋点内容变化时,只需要修改埋点接口,而不能去代码中一处一处的修改
在一些公共库或者封装的自定义框架里面不进行埋点,所有的埋点都在业务层。比如数据库连接池出现连接数溢出的时候错误需要经过处理,然后按照自定义的统一风格抛出相关信息到业务层,便于业务层判断公共库和自定义框架执行时是否有错误。
后端埋点具体实施方案
直接在后端指定位置处写入埋点代码收集数据。每个方法中在共享共有信息这一块有一些不同。
- 每个需要用到发送消息的文件中都import一份配置信息,然后在需要的地方,根据配置信息手动埋点。
- 将消息发送封装成一个MixIn类,使用继承混入到各个类中。每次都需要经过建立连接发送消息断开连接。
- 将埋点信息封装成一个模块,提供全局的初始化函数和埋点消息生成函数,在程序入口处调用初始化模块的初始化函数进行初始化,然后在程序的任何地方都可以消息生成函数。此种方法类似于使用第三方数据分析平台提供sdk时的使用方法。
方案选取:
- 由于项目是python编写的,埋点数据发送到kafka,封装好的第三方python模块可以采集自己需要一切信息。因此采用最后一种方式,写成可插拔的第三方sdk的形式,可以直接封装一些新增的方法,包含一些可以用的信息,例如自动采集报错信息所在行数。
- 对于非python项目,提供python脚本供其他语言程序进行调用。例如Erlang编写的转推流服务中调用Python脚本抛出报错信息及其他数据。
参考:
关于程序埋点的思考
https://suncle.me/posts/756707286/