探索数据科学、机器学习与统计分析的世界,记录学习和实践的旅程。
阅读最新博客 →大数据与人工智能方向
我是一名对数据科学和大数据技术充满热情的学生。目前正在学习和实践各种数据分析技术, 包括 PySpark 分布式计算、统计建模、机器学习以及数据可视化等方向。
主要研究兴趣包括:生存分析、客户流失预测、客户生命周期价值计算、 以及大规模数据处理与分析。
使用 IBM Telco 数据集,应用 Kaplan-Meier、Cox 比例风险模型和加速失效时间模型 进行全面的生存分析,并计算客户生命周期价值。
阅读全文 →探讨大语言模型在 SQL 代码生成任务中的常见错误,包括方言混淆、 语义错误和 NULL 值处理缺失等问题。
阅读全文 →介绍如何使用 PySpark 构建数据湖架构,从原始数据加载到数据清洗、 转换和分析的完整流程。
阅读全文 →