采集策略

先从结构稳定的网站或公开 RSS 开始,不要一开始就处理复杂反爬。采集频率要克制,保留来源链接,并遵守网站规则。

数据质量

情感分析的数据问题通常比模型问题更早出现:标题重复、正文缺失、广告文本混入、发布时间格式不统一,都会影响实验结果。

作品集展示

在作品集中,可以展示一张数据表结构、一段清洗前后的文本对比,以及最终用于训练的样本统计。