个人作品集

巴西 Olist 电商全链路数据洞察：从底层清洗、NLP 评价归因到供应链 SLA 监控

发表于2026-05-26|项目经验

项目背景：在真实的拉美电商市场中，复杂的地形、高昂的物流成本以及极度依赖分期的消费习惯，构成了独特的商业生态。本项目基于巴西头部电商平台 Olist 的真实业务数据集（涵盖 10 万+ 订单与三十多万条明细），完全通过 Python 进行底层数仓清洗与 NLP 文本降维，利用 MySQL 搭建多维业务宽表（DWD/DWS），最终产出针对供应链 SLA、运费经济学与用户体验（CX）的商业洞察体系。 🛒 数据来源：Kaggle - Brazilian E-Commerce Public Dataset by Olist🔗 完整源码获取：点击访问我的 GitHub 仓库获取完整 Python 与 SQL 源码破除原始泥潭：全维度数据资产预处理 (Python 阶段)海外电商的真实数据往往夹杂着多语言编码冲突、业务逻辑断层以及系统底层的记录异常。为确保下游 MySQL 聚合与 Tableau 可视化的绝对精准，第一阶段必须构建严密的 Python 探查与清洗链路。跨越语言与编码陷阱在读取 order_reviews (用户评价表) 时，直接引发了 UTF-8 解码崩...

北京二手房市场深度洞察：31万次交易与13万套房源的流动性及溢价分析

发表于2026-05-25|项目经验

项目背景：作为中国最具代表性的一线城市存量房市场，北京二手房的交易活跃度与价格分布不仅是经济基本面的晴雨表，更蕴含着深刻的城市微观空间特征。本项目基于 Kaggle 链家网开源数据集，通过 Python 进行数据清洗与 EDA，结合 SQL 进行多维度聚合提炼，最终产出宏观流动性与微观资产溢价的商业洞察报告。 🛒 数据来源：Housing price in Beijing-RUIQURM🔗 完整源码获取：点击访问我的 GitHub 仓库获取完整 Python 与 SQL 源码核心可视化成果 (Tableau Dashboard) (注：由于静态图片展示受限，如果您对动态交互看板感兴趣，请点击此处查看 Tableau Public 在线版本) 数据资产预处理与特征工程 (Python 阶段)原始数据集存在大量不规则文本、缺失值以及类型错配等数仓痛点。为保证后续 BI 看板与统计建模的绝对精准，在第一阶段构建了严密的数据清洗与特征衍生链路。数据导入导入数据： 12345import pandas as pdimport numpy as npdf = pd.read_cs...

穿透“时空错位”的均价幻觉：基于经纬度与窗口函数的二手房绝对溢价量化实战

发表于2026-05-22|技术复盘博客

复盘导读：在分析北京二手房数据时，我想探究一个常识问题：“带电梯到底能让房子每平米贵多少钱？”。然而，初次 SQL 计算的结果令人大跌眼镜：没电梯的房子竟然比有电梯的更贵！是数据错了，还是常识错了？本文复盘了我是如何通过排查“时空错位”与“隐藏维度”，并结合经纬度空间计算，最终剥离出真实的资产溢价密码。遭遇悖论：没电梯的房子凭什么更贵？起初，为了计算电梯带来的溢价，我直接用房源的 price (成交单价) 减去 communityAverage (小区均价)，然后按是否有电梯进行 GROUP BY。初版 SQL 结果出来后，我惊呆了：计算出的溢价竟然是负值，甚至无电梯的均价高于有电梯的均价！ 1234567with new_biao as (select id,price,communityAverage,(price - communityAverage) as premium_per_sqm,elevator,ladderRatiofrom real_estate_db.beijing_house_saleswhere communityAverage >0 a...

拒绝暴力强转：从报错 float64 to int8 看数十万级脏数据的自动化嗅探与动态降维

发表于2026-05-20|技术复盘博客

复盘导读：在处理 Kaggle 链家网 30 万条北京二手房数据集时，我最初试图用一个简单的字典映射来批量转换 26 个字段的数据类型。然而，一个刺眼的报错 cannot safely cast non-equivalent float64 to int8 彻底打乱了计划。本文复盘了我是如何放弃低效的“人工查阅 CSV”，转而用 Python 构建“自动化异常扫描仪”，并实现数据类型的智能向下转型（Downcast）的全过程。出师不利：CSV 读取时的“混合类型”陷阱刚用 pd.read_csv 载入数据，还没来得及高兴，控制台就飘来一行橙色警告： 1234import pandas as pdimport numpy as npdf = pd.read_csv('new.csv', encoding='gbk') C:...: DtypeWarning: Columns (1,11,12,14) have mixed types.Specify dtype option on import or set low_memory...

打破RFM模板陷阱：基于淘宝亿级长尾数据的阈值重构与业务分层实战

发表于2026-05-12|技术复盘博客

复盘导读：在数据分析的日常中，RFM 模型几乎是用户分层的“万金油”。网上绝大多数教程都会教你直接用 NTILE(5) 窗口函数进行等频分桶。但在面对真实的亿级业务数据时，生搬硬套模板往往会带来灾难性的“业务误杀”。本文将结合淘宝亿级用户行为数据，复盘我为何放弃等频分桶，转而基于长尾分布特征进行阈值重构。一、常规分桶法 (NTILE) 的优势与盲区在没有强业务标准前，做 RFM 模型先用 NTILE(5) 分桶拿到客观画像，是大多数分析师的默认选择。分桶法的优点显而易见：客观性：让数据自己说话，避免拍脑袋自定义阈值（比如主观判定“R ≤ 30 天算高”在不同业务期可能并不准确）。自适应：能跟着业务节奏自动调整，客户行为会随时间整体偏移。分层均匀：每一层都有足够的分析样本，避免出现某一档人数极少导致统计不稳定。可复用性强：只需一行 SQL 即可跨品类、跨行业通用。常规分桶的 SQL 实现示例： 123456789101112131415161718192021222324252627282930WITH new_biao AS ( SELECT ...

淘宝电商用户行为数据分析

发表于2026-05-10|项目经验

项目导读：本项目基于亿级电商真实用户行为数据，还原真实业务场景下的底层逻辑。从放弃 MySQL 转向 ClickHouse 搭建明细数据层 (DWD) 开始，通过漏斗分析、时间序列、RFM模型、同期群分析及用户路径追踪等 9 大步骤，最终输出可落地的精细化运营与增长策略。 🛒 数据来源：阿里天池实验室 - 淘宝电商用户行为数据集 (User Behavior Data)⚠️ 合规声明：本项目使用之数据仅用于个人数据分析技能展示与技术交流，已进行脱敏处理，底层数据版权归属阿里巴巴天池实验室所有。核心可视化成果 (Tableau Dashboard)下面是我基于清洗后的数据，使用 Tableau 制作的全局交互式数据大屏，涵盖了流量热力图、漏斗转化、RFM 树状图及商品气泡图等核心业务指标。 (注：由于静态图片展示受限，如果您对动态交互看板感兴趣，请点击此处查看 Tableau Public 在线版本) 数据处理与深度业务分析数据清洗与底层数仓建设 (ODS 到 DWD)由于数据规模高达上亿条，传统 MySQL (OLTP) 导入查询过慢，本项目采用 ClickHouse...