前面我们已经介绍了很多kettle插件,每个kettle插件都它的使用场景,我们在做数据同步ETL的过程中,势必要处理一些脏数据,把数据质量提高。今天我们一起来学习这这款数据清洗插件。
1、转换设计
1)生成记录 模拟数据输入
2)数据清洗 选择具体的数据清洗规则对数据进行清洗
3)写日志 输出清洗前和清洗后的数据
2、生成记录
简单填写三个字段,id,engName,chnName,如下图所示
3、清洗插件设置
1)选择待清洗的插件
2)设置规则
3)根据需求填写输出字段名
从图中可以看到,这里预设了20多个常用的清洗规则,根据需求自行选择,不满足需求,可以进行扩展。
4、保存&运行
保存转换文件,点击运行按钮,运行正常。
1)id 字段,规则不做任何操作,原样输出。
2)engName=xiaojigang,规则单词首字母大写,输出Xiaojingang。
3)chnName=小金刚,规则汉子转手拼,输出XJG。
写在最后
截至今天,我们团队已经研发了将近100+款插件,360度无死角覆盖常见的业务场景,朋友们,老铁们,你们还缺什么功能的kettle插件,欢迎评论区留言探讨。