岗位职责:
1、核心职责聚焦于构建可靠、高效、安全合规的AI数据基础设施;
2、负责AI模型训练推理数据的全流程管理以及数据版本控制及质量评估;
3、设计实现高吞吐、低延迟的数据提取、转换和加载(ETL)流程,以支持模型训练和评估;使用工具或开发自动化工具/脚本(如Python)处理大规模数据,包括多源数据采集、噪声过滤、去重、缺值补充、存储、访问和加载等;
4、设计数据存储架构,包括数据库选型(关系/非关系型、向量数据库/时序数据库)、数据表、存储过程、访问控制、性能优化、冗余备份等;
5、按需实施隐私计算(联邦学习/差分隐私)及脱敏策略,确保训练数据符合GDPR/《个保法》要求;
6、按需构建数据质量监控平台,定义并自动化校验数据完整性、一致性及分布偏移指标(如PSI)。
任职要求:
1、计算机/统计学相关专业,2年以上数据工程经验;
2、精通Python/SQL,熟练使用 PySpark/Pandas 进行大规模数据处理;
3、具有编写自动化工具、脚本或使用分布式计算工具/ETL工具(如Hadoop、Spark、Talend等)进行数据ETL的能力与实际工程经验;
4、具有设计数据存储架构的能力与实际工程经验;
5、熟悉电力、气象、光伏等领域和设备的数据处理、治理经验者优先;
6、熟悉GDPR/《个人信息保护法》/隐私计算/脱敏策略者优先。