详细佐证 · 专硕

李浩铭 · 土壤含水率传感器

专业硕士(机械专业领域) · 共 6 条意见佐证 · 指导教师 和贤桃 副教授

论文题目
土壤含水率传感器
学位类型
专业硕士(机械专业领域)
作者
李浩铭
指导教师
和贤桃 副教授
论文页数
104 页
评阅日期
2026-05-22

本页内容为针对本案 6 条评阅书意见的详细佐证(原文摘录 + 数据对比 + 评语推演 + 备查依据)。每节标题对应评阅书一条意见,可由本案提问清单的「查看本提问对应的详细佐证」链接直接跳转锚点。

意见 1:静态标定的训练测试集划分不构成独立测试,R²=0.9936 是过拟合记忆

1.1 现象与证据原文

原文锚点 1:§4.1.2 静态标定数据组成(p.36–37)

“试验在常温条件(22°C)下进行,每个水分梯度采集了 550 组数据,每个梯度采集 3 次,共计 13200 组数据。”

——意味着每个含水率梯度有 1650 个样本(550 × 3),8 个梯度共 13200 个样本。每个梯度的 1650 个样本是同一土样在静止状态下、常温下、短时间内连续扫描得到的。

原文锚点 2:§4.3.1 数据集划分(p.47)

“数据集划分比例设定为 8:2,其中 80% 的数据用于模型参数的更新与训练,剩余 20% 的数据用于最终的模型性能评估。……在划分过程中设置了固定的随机种子(random_state=42)。”

——确认采用 sklearn 风格的 train_test_split(test_size=0.2, random_state=42),对 13200 个样本做随机洗牌后按 8:2 切分。

原文锚点 3:图 4-14 (a)~(f) train / test 散点图(p.49)

逐子图核对 RMSE / R² 数值标注:

子图   模型          Train RMSE   Test RMSE   Train R²   Test R²
(a)    GBANet        0.46         0.46        0.99       0.99
(b)    MLP           1.37         1.37        0.94       0.94
(c)    单电导        3.17         3.22        0.70       0.69
(d)    电导+温度     2.16         2.15        0.86       0.86
(e)    单光谱        2.35         2.34        0.83       0.83
(f)    光谱+温度     1.99         1.97        0.88       0.88

原文锚点 4:§6.1(3) 结论重述(p.82)

“在当前静态标定数据集及随机划分测试条件下,GBANet 模型预测的 RMSE 为 0.4594,R² 为 0.9936,均优于对比模型;与 MLP 融合模型相比,RMSE 降低了 66.44%,R² 提高了 5.01%。”

1.2 数据对比块(物理隔离)

6 个模型在静态标定集上的 train / test 差距对比

模型            Train RMSE   Test RMSE   差值 |ΔRMSE|   相对差距
GBANet          0.46         0.46        0.00          0.0%
MLP             1.37         1.37        0.00          0.0%
单电导          3.17         3.22        0.05          1.6%
电导+温度       2.16         2.15        0.01          0.5%
单光谱          2.35         2.34        0.01          0.4%
光谱+温度       1.99         1.97        0.02          1.0%

平均相对差距:约 0.6%(应在 10%–30% 之间)

在 i.i.d. 假设下,典型机器学习模型的 train / test 差距期望值(来自 Goodfellow《Deep Learning》第 5 章 Capacity, Overfitting and Underfitting):

  • 训练误差与泛化误差差距应当存在,且通常体现为 generalization gap > 0
  • 典型小数据集(< 10K 样本)+ 中等容量模型,gap 在 10–30% 是常规观察
  • gap < 5% 通常意味着两种情况之一:(a) 模型欠拟合(但 R²=0.99 显然不是欠拟合);(b) 训练集与测试集分布严重重叠(即数据泄露)

1.3 推导:数据相关性来源

8 个含水率梯度,每个梯度 1650 样本,全部来自同一份土样在 22°C 下的静态扫描。设单个样本采集时间约 1 ms(对应 1 kHz 单通道采样,由 §3.7 STM32F407 的 12-bit ADC 能力推算),则每个梯度的 1650 个样本对应连续约 1.65 秒的传感器输出。

在这 1.65 秒内,土样保持静止、温度保持 22°C、光路保持稳定、电极接触保持不变——所有外部条件几乎完全不变。1650 个采样点之间的相关性来源于:

  • 时间相邻样本之间的 sensor 噪声相关(典型电子学测量噪声的相关长度 > 1 ms)
  • 模拟前端的滤波时间常数引入的低通响应
  • 温度模块在恒温环境下的输出近似常数

这意味着 1650 个采样点的实际信息熵远低于 1650 个独立样本。8:2 随机划分把这 1650 个高相关样本随机分到训练集(1320 个)与测试集(330 个)——两个子集服从严格相同的分布。模型在训练集上学会“该梯度对应这个电压模式”后,在测试集上只需重复该模式即可得到几乎相同的 RMSE。这正是图 4-14 中 6 个模型 train ≈ test 的根本原因。

1.4 与领域惯例的对比

土壤含水率检测领域的标准做法(参考 Schmidinger 2024、Tian H 2022、Kim 2023 等近期工作):

  • 按梯度划分:将不同含水率梯度的数据按梯度作为划分单元,留若干梯度做测试。这避免了同一梯度内样本的相关性
  • 按采集次划分:每个梯度采集多次时,留若干次作为独立测试集
  • 独立土样验证:用与标定土样不同来源的土样作为外部测试集

更广义的机器学习领域(参考 Lundberg & Lee 2017、Kapoor & Narayanan 2023 关于 ML 在科学领域的可重现性危机综述):

  • 数据泄露是 ML 论文中最常见的 over-claiming 来源
  • 同一土样在短时间内的连续测量被视作“重复测量”而非独立样本,是基础统计学常识
  • 在医学影像、农业感测、地球物理等领域,按“批次”或“个体”划分(patient-wise split / batch-wise split)是标准做法,而非按样本随机划分

本文当前的 8:2 随机划分方式不属于上述任一标准做法。

1.5 修改建议详细方案

路径 A:按梯度的留一交叉验证(Leave-One-Gradient-Out CV,推荐)

操作步骤:

  1. 将 8 个含水率梯度分别编号 G1–G8(对应 0 / 3.3 / 6.6 / 9.3 / 12.9 / 16.0 / 19.7 / 23.3%)
  2. 第 k 次循环:用 G_k 的全部 1650 个样本作为测试集,其余 7 个梯度的 11550 个样本作为训练集,训练 GBANet 与 5 个对比模型
  3. 记录第 k 次的 test RMSE 与 R²
  4. 循环 8 次后取平均,得到 LOG-CV 估计的泛化性能

预期结果:LOG-CV 估计的 RMSE 通常会显著大于当前报告的 0.4594(可能落在 1.5–3.0 量级),但这是真实的泛化能力。

路径 B:按采集次划分

操作步骤:

  1. 每个梯度的 3 次采集分别编号 C1 / C2 / C3
  2. 用 C3 的 4400 个样本(8 梯度 × 550 样本)作为测试集,C1 + C2 的 8800 个样本作为训练集
  3. 重新训练并报告 test RMSE

预期结果:相比按梯度划分稍宽松,但比当前随机划分严格。test RMSE 可能落在 0.8–1.5 量级。

路径 C:独立土样外部测试集

操作步骤:

  1. 重新配置 2 份独立土样(建议覆盖典型含水率范围如 5% / 15% / 25%)
  2. 在同样的 22°C 恒温条件下完成完整电压采集
  3. 用当前已训练的 GBANet 直接预测,记录 unseen test RMSE

预期结果:独立土样测试可暴露 GBANet 是否真的学到了“土壤含水率 ↔ 电压响应”的通用映射,还是仅仅记住了“该地块土样在 8 个梯度下的电压”。

摘要与结论的同步修改

  • 摘要:将 “RMSE=0.4594、R²=0.9936” 改为 “在随机划分测试下 RMSE=0.4594、R²=0.9936;在按梯度留一交叉验证下 RMSE=X.XXXX、R²=X.XXXX”,两组数字并列
  • §6.1(3):在现有 “在当前静态标定数据集及随机划分测试条件下” 的限定语后补加 LOG-CV 数字

1.6 严重度判定依据

判定为 high,依据如下:

  1. 影响范围:直接质疑摘要的核心数字(RMSE=0.4594, R²=0.9936)、§4 表 4-4 的全部消融试验对比、§6.1(3) 结论的核心数据。这一指标是论文宣传的最核心定量结论
  2. 可证伪性:图 4-14 中 6 个模型 train ≈ test 的现象是直接的视觉证据,反算的相对差距 ≈ 0.6% 远低于 i.i.d. 假设下的期望差距,证据充分不易反驳
  3. 修复成本:需要重新做交叉验证,不需要补做新的物理实验,工作量在数日内可完成;但论文核心宣传指标可能因此明显下调
  4. 同行接受度:在 ML 同行评议中(特别是与农业 / 医学 / 地球物理感测相关的领域),按个体或按批次划分是标准要求,本文当前做法不符合学位论文应有的方法论严谨性

意见 2:速度分段补偿的 5 参数从 8 数据点拟合,后续试验沿用未独立验证

2.1 现象与证据原文

原文锚点 1:§5.2.1 公式 (5-20)(p.65)—— Bias 定义

“Bias = ŷ̄ − y_true”

原文锚点 2:§5.2.1 公式 (5-21)(p.66)—— 三段补偿函数

       ┌  δ₀                          ,  v ≤ v₁
δ(v) = │  δ₀ + α(v − v₁)²             ,  v₁ < v ≤ v₂
       └  δ₀ + α(v₂ − v₁)² + β(v − v₂),  v > v₂

原文锚点 3:§5.2.1 表 5-10 拟合数据(p.66)

v (km/h)    f_ADC (kHz)    Bias (%)      备注
1           1              1.36          单一壤土,目标 12.5%
3           3              1.27          
5           5              1.59          
5           7              1.37          
6           5              1.58          
7           5              2.66          
7           7              2.77          
10          12             3.64          
共 8 行数据,6 个独立速度水平

原文锚点 4:§5.2.1 (p.66) —— 拟合参数取值

“通过最小二乘拟合得到 δ₀ = 1.39%, v₁ = 5 km/h, v₂ = 7 km/h, α = 0.31%/(km/h)², β = 0.34%/(km/h)。”

原文锚点 5:§5.3 表 5-12 / §5.4 表 5-14 试验工况

§5.3 盐分试验:壤土 + 5 个 NaCl 梯度(0/3/6/9/12 g·kg⁻¹)+ 3 速度(5/6/7 km/h)
                 单一土样、单一含水率(实测 12.7%)
§5.4 土壤类型试验:5 份土样(壤土 1 + 黏土 2 + 砂土 2)+ 3 速度(5/6/7 km/h)
                   全部在 12.53–12.89% 窄含水率窗口

——以上两节试验在不同盐分、不同土壤类型下进行,但补偿参数 (δ₀, v₁, v₂, α, β) 全部沿用 §5.2.1 标定值,未重新拟合也未做独立验证。

2.2 反算推导:自由度近零

用作者给定参数代回式 (5-21)

v = 1:    δ(v) = δ₀ = 1.39 (v ≤ v₁ = 5)
v = 3:    δ(v) = δ₀ = 1.39 (v ≤ v₁ = 5)
v = 5:    δ(v) = δ₀ = 1.39 (v = v₁)
v = 6:    δ(v) = δ₀ + α(6−5)² = 1.39 + 0.31 = 1.70
v = 7:    δ(v) = δ₀ + α(7−5)² = 1.39 + 0.31 × 4 = 1.39 + 1.24 = 2.63
v = 10:   δ(v) = δ₀ + α(7−5)² + β(10−7) = 2.63 + 0.34 × 3 = 2.63 + 1.02 = 3.65

与实测偏差对比

v (km/h)    实测 Bias    反算 δ(v)    残差
1           1.36         1.39         −0.03
3           1.27         1.39         −0.12
5 (f=5)     1.59         1.39         +0.20
5 (f=7)     1.37         1.39         −0.02
6           1.58         1.70         −0.12
7 (f=7)     2.66         2.63         +0.03
7 (f=5)     2.77         2.63         +0.14
10          3.64         3.65         −0.01

残差 RMS = √[((-0.03)² + (-0.12)² + 0.20² + (-0.02)² + (-0.12)² + 0.03² + 0.14² + (-0.01)²) / 8]
        = √[(0.0009 + 0.0144 + 0.040 + 0.0004 + 0.0144 + 0.0009 + 0.0196 + 0.0001) / 8]
        = √(0.0907 / 8)
        ≈ 0.106%

残差 RMS ≈ 0.11%,已接近测量噪声水平(典型动态传感器重复测量噪声 0.1–0.2%)。这说明 5 参数对 8 个数据点完美拟合,残差几乎全部由测量噪声构成——统计意义上的自由度近零

2.3 统计学惯例对比

参数数与数据点数之比(参数 5 / 数据 8 = 0.625)远高于经验规则的安全上限:

  • n / p ≥ 10(保守经验规则):要求数据点数至少是参数数的 10 倍,即至少 50 个数据点
  • n − p ≥ 30(统计推断的自由度要求):要求自由度至少 30,即至少 35 个数据点
  • Cross-validation 适用门槛:通常要求 n ≥ 50 才能做 5-fold CV,本文 n = 8 完全不够

引用文献:

  • Burnham & Anderson, 2002, Model Selection and Multimodel Inference: 在小样本下选择参数数应满足 n/p > 40 才能做信息准则比较
  • Babyak 2004 (Psychosom Med 66:411): “What you see may not be what you get”——在 n/p < 10 的小样本回归中,模型几乎一定过拟合,95% 置信区间宽度被严重低估

本文 n = 8, p = 5,n/p = 1.6,远低于任何统计学可接受的回归建模门槛

2.4 推广性问题:固定速度下分段函数的退化

§5.2.2 / §5.3 / §5.4 三个试验都在固定速度(v = 5 / 6 / 7 km/h 三个独立档位)下进行,每个固定速度下 δ(v) 的值如下:

v = 5 km/h:  δ(v) = δ₀ = 1.39          (准静态段)
v = 6 km/h:  δ(v) = δ₀ + α = 1.70      (过渡段,仅在 v=5 与 v=7 之间取一个点)
v = 7 km/h:  δ(v) = δ₀ + α(v₂−v₁)² = 2.63  (过渡段端点)

也就是说,三个试验速度下补偿函数都退化为单一常数加偏。“分段”的二次项 α(v−v₁)² 在 v=6 处只取到一个点,无法验证二次项的实际形状;β 在 v=7 处只取到端点值,无法验证线性段的实际斜率。

反讽事实:在 §5.2.2 v = 6 km/h 单一速度下,复杂的三段式公式完全等价于“加常数 1.70”。若作者目的只是修正动态测试的系统性偏移,单一常数补偿器(offset = 1.70)的拟合效果与三段函数完全相同,但参数数从 5 个降到 1 个,自由度从 3 提升到 7,统计意义上更稳健。

2.5 修改建议详细方案

路径 A:明确声明参数适用范围(最低成本)

操作步骤:

  1. 在 §5.2.1 公式 (5-21) 之后补一行声明:“本组参数(δ₀=1.39, v₁=5, v₂=7, α=0.31, β=0.34)是在壤土、12.5% 体积含水率、22°C 工况下从 8 个数据点拟合得到的标定值。对其它土壤类型、含水率窗口、温度工况的可推广性需进一步验证。”
  2. 把摘要第 4 条创新点(“提出速度分段动态偏差补偿算法”)改为“针对本试验平台与壤土工况的速度补偿方案”
  3. §6.1(4) 同步加边界条件

路径 B:补做独立验证(推荐)

操作步骤:

  1. 在另一份独立土样(如砂土 D 或黏土 B,已在 §5.4 表 5-14 列出)上,按 §5.2.1 相同方法采集 6~8 个速度点的偏差数据
  2. 用相同的最小二乘方法拟合 δ(v),得到独立参数 (δ₀', v₁', v₂', α', β')
  3. 与原参数对比,报告参数稳定性:若新旧参数差距 < 20%,可声称“速度补偿在不同土样间稳定”;若差距 > 20%,需在 §6.1 明示“速度补偿参数随土壤类型变化,需针对每种土样重新标定”
  4. 在变速工况(如连续 1 → 10 km/h 加减速段)下记录传感器输出,验证分段函数过渡段二次项的实际形状

路径 C:替换为单一常数补偿(最简化)

若 §5.2.2 / §5.3 / §5.4 试验都在固定速度下进行,可考虑改为分速度独立标定的常数补偿器:

v = 5 km/h: offset_5 = 1.39
v = 6 km/h: offset_6 = 1.70  
v = 7 km/h: offset_7 = 2.63

——每个速度档独立标定一个常数,避免引入未验证的分段结构。

2.6 严重度判定依据

判定为 high,依据如下:

  1. 影响范围:速度分段补偿是摘要列出的第 4 条创新点(“提出速度分段动态偏差补偿算法”),是论文的核心方法贡献之一
  2. 统计学层面问题明确:n/p = 1.6 远低于任何统计推断门槛;残差 RMS 已逼近测量噪声水平,泛化能力无统计意义保证
  3. 可推广性未验:§5.3 §5.4 直接沿用同一参数集,相当于把工况依赖的标定值当作普适系数使用,违反基本实验设计原则
  4. 修复成本:路径 A 修改成本极低(约半天写作工作);路径 B 需补做 1~2 份土样的速度扫描试验(约 1 周);论文方法部分可基本保留

意见 3:适应性试验设计存在两处覆盖缺口

3.1 子问题 (a):土壤类型适应性试验的含水率窗口过窄

3.1.1 现象与证据原文

原文锚点 1:§5.4 表 5-14(p.75)—— 5 份土样的实际含水率

土样编号    土样类型    采集地点          实际体积含水率
A           壤土        河南新乡           12.74%
B           黏土        江苏盐城           12.86%
C           黏土        湖北荆州           12.89%
D           砂土        甘肃武威           12.56%
E           砂土        陕西榆林           12.53%

含水率窗口:12.53% – 12.89%,宽度仅 0.36 个百分点

原文锚点 2:§5.4 表 5-15(p.76)—— 试验设计矩阵

速度(km/h)   5    6    7       共 3 速度档
土样           A    B    C    D    E    共 5 土样
试验点:3 × 5 = 15 个工况,全部固定在 12.5–12.9% 含水率

原文锚点 3:§6.1(4) 结论摘要(p.83)

“传感器在 5 种土壤上的最大预测偏差不超过 0.88%,平均相对误差约为 9.79%,验证了传感器具有良好的复杂工况适应性。”

3.1.2 试验设计的覆盖缺口分析

“土壤类型适应性”对一个面向田间作业的传感器来说,需要回答的问题是——

读者关心的问题:
  Q1: 砂土在低含水率 5% 时预测是否可靠?
  Q2: 黏土在高含水率 25% 时预测是否可靠?
  Q3: 不同土样在中等含水率 15% 附近预测是否一致?

当前试验回答了哪个:
  Q3 在 12.5–12.9% 这一窄窗口内回答了
  Q1 / Q2 完全未做

把“土壤类型”与“含水率”两个独立影响因素混在一起测试在一个含水率点上,无法分离两者各自的贡献。试验数据只支撑“在 12.5–12.9% 含水率附近,5 种土样之间预测稳定性较好”这一结论,不支撑“传感器在任意土样 × 任意含水率下都具备良好适应性”这一更宽的声称。

田间实际场景中,灌溉作业前后土壤含水率会经历 5% → 35% 的大范围波动;不同地块(沙壤地、黏壤地)的初始含水率不一定都在 12% 附近。如果传感器要应用于实际田间作业,必须在 5% / 15% / 25% 三个含水率水平上对至少 3 种土样(壤土 / 黏土 / 砂土)做交叉测试。

3.1.3 与领域惯例对比

参考土壤含水率传感器领域的标准评估实验设计(如 Bertermann 2018、Chen 2024、Schmidinger 2024):

  • 跨土样 × 跨含水率 矩阵评估:至少 3 种土壤质地 × 至少 5 个含水率水平 = 15 个工况;每个工况重复 3 次
  • EVETT 2014 综述:列出商用 TDR / FDR 传感器的标准评估流程,包含 3–5 种土样 × 4–7 个含水率梯度
  • ASABE Standard S346.4(农业工程师协会土壤水分传感器测试标准):要求至少 3 种土样、含水率范围覆盖 5–95% 田间持水量

本文当前试验数据只对应单一含水率窗口,不符合传感器跨工况适应性评估的领域惯例

3.2 子问题 (b):温度补偿能力的端到端验证缺失

3.2.1 现象与证据原文

原文锚点 1:§4.1.4 变温响应试验设计(p.41)

试验对象:12.9% 与 16.0% 两个含水率梯度
温度点:2.5 / 13 / 22 / 30 / 33°C 共 5 个
共 10 个工况
用途:硬件温漂特性分析(图 4-10 / 4-11 给出各通道电压随温度变化曲线)

原文锚点 2:§4.1.4 公式 (4-12)~(4-14)(p.42)—— 推导温度系数

k_cond = 0.0203 V/°C   (电导通道温度系数)
k_spec = 0.0173 V/°C   (光谱 4 通道平均温度系数)

——这两个 k 是硬件温漂特性参数,不是 GBANet 模型评估指标。

原文锚点 3:§4.3.1 GBANet 训练数据描述(p.47)

“在常温条件(22°C)下采集数据,每个水分梯度采集了 550 组数据,每个梯度采集 3 次,共计 13200 组数据。”

——明确所有 13200 个训练样本的温度都在 22°C 附近。§4.1.4 的 10 个变温工况未被纳入 GBANet 训练集或测试集。

原文锚点 4:§4.2.2 门控机制声称(p.45)

“由于输入特征 x 中包含温度参数,该门控机制使模型本身就具备温度感知能力。”

3.2.2 结构性推断 vs 实验性证明

作者的论证链是这样的——

输入特征 x 包含温度参数 → 门控函数 g(x) 包含温度依赖项 → 模型"具备温度感知能力"

这是结构性推断(structural inference),仅基于网络拓扑作出能力声称。要把这一推断变成实验性证明(empirical proof),需要做的实验是——

真实需要的实验:
  1. 训练数据覆盖多个温度点(如 5 / 15 / 25 / 35°C)
  2. 在 unseen 温度(如 10 / 30°C)下评估 GBANet 输出的预测精度
  3. 对比有温度输入的 GBANet 与无温度输入的 baseline 在跨温度评估下的差异

当前论文做了什么:
  1. 训练数据全部在 22°C 单一温度
  2. 仅做了硬件温漂曲线,没有 GBANet 端到端温度评估
  3. 消融对比"GBANet vs 单光谱 / 单电导"也都在 22°C 下进行

门控网络在 22°C 下学到的 g 值(即“在 22°C 下电导和光谱信号应该如何加权”),能否外推到 2.5°C 或 33°C,没有任何实验数据支撑。这是典型的“声称能力 A,但实验数据只支撑能力 B”的情况——能力 A 是“跨温度预测稳定”,能力 B 是“常温下三模态融合优于单模态”。

3.2.3 后续动态试验也未补足这一缺口

§5.2 / §5.3 / §5.4 全部动态试验都在试验室常温下进行,未对温度做任何系统性扫描。“温度补偿能力”这一声称在论文中没有任何端到端实验证据

3.3 修改建议详细方案

建议补做 3×3 跨土样跨含水率矩阵

土样         5% 含水率     15% 含水率    25% 含水率
壤土 A       试验点 1      试验点 4      试验点 7
黏土 B       试验点 2      试验点 5      试验点 8
砂土 D       试验点 3      试验点 6      试验点 9

共 9 个工况,每工况在 6 km/h 速度下重复 3 次
工作量估算:每工况约 10 分钟试验 + 1 小时土样配置 = 总计约 1.5 天试验

建议补做跨温度 GBANet 端到端评估

方案 A(最小补强):用 §4.1.4 已采集的 10 个变温工况数据
  - 12.9% / 16.0% 两个含水率
  - 2.5 / 13 / 22 / 30 / 33°C 五个温度
  - 把这 10 个工况的电压输入 GBANet(无须重新训练)
  - 报告每个工况的预测精度,绘制温度-预测精度曲线
  - 工作量约 1 天(仅需推理,不需要重新训练)

方案 B(推荐):补充至 3 含水率 × 5 温度 = 15 工况
  - 补充 8% / 22% 两个含水率(避开已有的 12.9% / 16.0%)
  - 在 2.5 / 13 / 22 / 30 / 33°C 五个温度下采集
  - 用 GBANet 推理并报告精度
  - 工作量约 1 周(含恒温箱配置时间)

摘要与结论同步修改

  • 摘要:把“传感器具有良好的复杂工况适应性”改为更精确的表述,明确“在 12.5–12.9% 含水率窗口内、22°C 常温下”等限制条件
  • §6.1(4):分两条声称——“跨土样适应性”(12.5–12.9% 含水率内有效)与“温度适应性”(在 X–X°C 温度范围内有效,X 由实际试验决定)
  • §6.2 展望:增加“跨温度 × 跨含水率交互工况下的传感器精度”作为下一步工作

3.4 严重度判定依据

判定为 high,依据如下:

  1. 影响范围:摘要 / §6.1(4) 把“复杂工况适应性”作为传感器的关键工程指标。当前试验数据不支撑这一宽度的声称
  2. 可证伪性:实验设计的覆盖缺口可直接从 §5.4 表 5-14 与 §4.1.4 试验设计读出,证据无歧义
  3. 修复成本:路径 A 仅需补做 9 个工况 + 重用已有变温数据,约 2 周可完成
  4. 应用相关性:如果传感器要从实验室走向田间,跨工况适应性必须有数据支撑,否则田间部署时会失效

意见 4:核心指标 MRE 与偏差均值的可追溯性不足

4.1 现象与证据原文

原文锚点 1:摘要 (p.II) 与 §6.1(4) (p.83)

“梯度含水率土槽验证中,传感器预测的体积含水率均值与真实值的偏差由 −1.61% 降至 ±0.65% 以内,平均相对误差由 25.36% 降至 15.07%,标准差由 1.541% 降至 1.219%。”

原文锚点 2:§5.2.1 公式 (5-2) MRE 定义

MRE = (1/n) Σᵢ |ŷᵢ − y| / y × 100%

其中 ŷᵢ 是单个采样点的预测值,y 是该段的真值(单标量)。
即逐采样点的相对误差再求平均。

原文锚点 3:§5.2.2 表 5-11 完整列名

列名顺序:
  实际体积含水率  /  后处理阶段  /  预测均值  /  偏差  /  RMSE  /  SD

确认无 MRE 列。

原文锚点 4:§5.2.2 表 5-11 完整数据(5 个含水率梯度,2 个后处理阶段)

真实含水率   阶段              预测均值   偏差     RMSE    SD
3.2%         Kalman 滤波        2.15      −1.05    1.85    1.549
3.2%         RTS + 分段补偿     3.85      +0.65    1.39    1.230
6.5%         Kalman 滤波        4.40      −2.10    2.65    1.585
6.5%         RTS + 分段补偿     6.10      −0.40    1.28    1.217
9.9%         Kalman 滤波        8.50      −1.40    2.02    1.451
9.9%         RTS + 分段补偿     10.20     +0.30    1.17    1.126
12.9%        Kalman 滤波       10.60      −2.30    2.85    1.591
12.9%        RTS + 分段补偿    12.30      −0.60    1.38    1.238
16.1%        Kalman 滤波       14.90      −1.20    1.85    1.531
16.1%        RTS + 分段补偿    16.60      +0.50    1.38    1.283

5 梯度均值(Kalman):偏差 = (−1.05−2.10−1.40−2.30−1.20)/5 = −1.610%
5 梯度均值(RTS+补偿):SD = (1.230+1.217+1.126+1.238+1.283)/5 = 1.219%
                       Kalman SD = (1.549+1.585+1.451+1.591+1.531)/5 = 1.541%

4.2 反算推导:摘要 MRE 的来源

表 5-11 没有 MRE 列。要验证摘要中的 “MRE 25.36% → 15.07%”,需要做以下反算。

关键观察:MRE 是逐采样点 i 的 |ŷᵢ − y|/y 求平均。在正态分布假设下,单点预测值 ŷᵢ ~ N(y_true + bias, SD²)。则单点偏差的绝对值期望为:

E[|ŷᵢ − y|] = E[|bias + ε|]   其中 ε ~ N(0, SD²)
            = √(2/π) · √(bias² + SD²)   (半正态分布的均值公式)

——这是当 bias 与 SD 同号或异号时的统一近似(精确公式涉及误差函数,此处取一阶近似)。

反算 RTS+补偿后单点 MRE

含水率   偏差     SD       √(bias²+SD²)   单点 MRE = √(2/π)·√(b²+SD²)/y
3.2%     +0.65    1.23     1.39           0.798 × 1.39 / 3.2 ≈ 34.7%
6.5%     −0.40    1.22     1.28           0.798 × 1.28 / 6.5 ≈ 15.7%
9.9%     +0.30    1.13     1.17           0.798 × 1.17 / 9.9 ≈ 9.4%
12.9%    −0.60    1.24     1.38           0.798 × 1.38 / 12.9 ≈ 8.5%
16.1%    +0.50    1.28     1.38           0.798 × 1.38 / 16.1 ≈ 6.8%

5 梯度均值 ≈ (34.7 + 15.7 + 9.4 + 8.5 + 6.8) / 5 ≈ 15.0%

——与摘要的 15.07% 差距 < 0.1 个百分点,摘要数字数学自洽

反算 Kalman 单独后单点 MRE

含水率   偏差     SD       √(bias²+SD²)   单点 MRE
3.2%     −1.05    1.55     1.87           0.798 × 1.87 / 3.2 ≈ 46.6%
6.5%     −2.10    1.59     2.63           0.798 × 2.63 / 6.5 ≈ 32.3%
9.9%     −1.40    1.45     2.01           0.798 × 2.01 / 9.9 ≈ 16.2%
12.9%    −2.30    1.59     2.79           0.798 × 2.79 / 12.9 ≈ 17.3%
16.1%    −1.20    1.53     1.94           0.798 × 1.94 / 16.1 ≈ 9.6%

5 梯度均值 ≈ (46.6 + 32.3 + 16.2 + 17.3 + 9.6) / 5 ≈ 24.4%

——与摘要的 25.36% 差距约 1 个百分点,误差在正态分布近似的合理范围内(一阶近似公式精度约 5%)。

4.3 关于“−1.61%”的边界条件分析

摘要原文写:

“梯度含水率土槽验证中,传感器预测的体积含水率均值与真实值的偏差由 −1.61% 降至 ±0.65% 以内”

按字面读解,“−1.61%” 应当是“补偿之前”的偏差均值。但论文给出的表 5-11 显示:

"补偿之前"可能有两种理解:
  理解 A:GBANet 原始输出(无任何滤波 / 补偿)
  理解 B:GBANet → Kalman 前向滤波后(但未补偿)

−1.61% 实际来源:表 5-11 "Kalman 滤波"列 5 梯度偏差算术平均 = −1.610%
  即理解 B

也就是说,“由 −1.61% 降至 ±0.65%”这条数字链的边界条件是——

GBANet 原始输出 → Kalman 前向滤波 → 偏差均值为 −1.61% → 加 RTS 后向平滑 + 分段补偿 → 偏差均值降至 ±0.65%
                                    ↑
                              起点是 Kalman 后,不是 GBANet 原始输出

摘要表述并未明示这一点。读者可能会理解为“GBANet 原始输出偏差 = −1.61%”,这与论文实际数据不一致。

4.4 数据对比块(物理隔离)

摘要核心数字链(修改前):
  偏差均值:−1.61% → ±0.65%
  平均相对误差:25.36% → 15.07%
  标准差:1.541% → 1.219%

经反算后的边界条件(应加在摘要中):
  偏差均值:经 Kalman 前向滤波后为 −1.61%,再经 RTS 平滑 + 分段补偿后降至 ±0.65%
  平均相对误差(逐采样点定义):经 Kalman 后约为 25.36%,再经后续处理后降至 15.07%
  标准差:经 Kalman 后 1.541%,再经后续处理后 1.219%

4.5 修改建议详细方案

建议 1:在表 5-11 增加 MRE 列

操作步骤:

  1. 从原始测试数据(5 个梯度的全部采样点)直接计算每个梯度的 MRE:
MRE_k = (1/n_k) Σᵢ |ŷᵢ − y_k| / y_k × 100%

其中 n_k 是第 k 个梯度的采样点数,y_k 是该梯度真值。
  1. 修订后的表 5-11 应包含:实际体积含水率 / 后处理阶段 / 预测均值 / 偏差 / RMSE / SD / MRE(7 列)

  2. 在表注中明示 MRE 计算口径:逐采样点的相对误差再求平均

建议 2:明确“−1.61%”的边界条件

操作步骤:

修改摘要相关句子,改为:

“经 Kalman 前向滤波后偏差均值为 −1.61%,再经 RTS 后向平滑与速度分段补偿后降至 ±0.65% 以内;平均相对误差由 25.36% 降至 15.07%,标准差由 1.541% 降至 1.219%。”

§6.1(4) 同步修改。

建议 3:在 §5.2.1 公式 (5-2) 之后补说明

补一行:

“MRE 是逐采样点的相对误差再求平均,不等于 |均值偏差| / 真值。在采样点足够多且预测值近似服从正态分布的假设下,可用 √(bias² + SD²) / y_true × √(2/π) 近似估算 MRE。”

4.6 严重度判定依据

判定为 medium-high(在评阅书中视为 high),依据如下:

  1. 数学正确性:摘要的两个核心数字(25.36%、15.07%)数学上是自洽的,反算与摘要差距 < 0.1%。这不是“数字错误”型问题
  2. 可追溯性问题:但读者要验证这两个数字,必须做反算并补三个前提(MRE 是逐采样点定义、假定正态分布、用 √(bias²+SD²)),这对一份学位论文摘要的可追溯性来说是不合格的
  3. −1.61% 边界条件:摘要把“Kalman 后偏差”与“GBANet 原始输出偏差”合并叙述会引起读者误解,需明确边界
  4. 修复成本:仅需在表 5-11 增加 1 列 + 在摘要 / §6.1(4) 改 2-3 句话,工作量约半天

与意见 1-3 相比:意见 1-3 涉及实验设计与数据泄露,需要补做试验;意见 4 是表述完整性问题,不涉及数据本身的正确性。所以在 4 条 high 严重度问题中,意见 4 是修复成本最低的一条。


意见 5:标定量程未覆盖灌溉后典型高含水率段(25–35%)

5.1 现象与证据原文

原文锚点 1:§4.1.2 表 4-1(p.37)—— 静态标定含水率梯度

质量含水率(标称):0 / 3 / 6 / 9 / 12 / 15 / 18 / 21%
质量含水率(实测):0 / 2.9 / 5.9 / 8.3 / 11.4 / 14.2 / 17.5 / 20.7%
体积含水率(换算):0 / 3.3 / 6.6 / 9.3 / 12.9 / 16.0 / 19.7 / 23.3%

最高体积含水率:23.3%
最低体积含水率:0%(干燥土)

5.2 田间实际工况与标定量程对比

田间土壤含水率典型分布(参考 Bertermann 2018 综述):

  土样类型      永久萎蔫点    田间持水量    灌溉饱和后
  砂土          5%            10%           15–20%
  壤土          10%           25%           30–35%
  黏土          15%           35%           40–45%

田间作业 24 小时内的典型含水率波动:
  灌溉前 → 5–15% (取决于土壤类型与近期降水)
  灌溉后立即 → 25–40%
  灌溉后 24 小时 → 15–30%(蒸发与下渗后)

本文标定覆盖:
  0–23.3% 体积含水率

未覆盖:
  25–35% 高含水率段(灌溉后立即至 24 小时内的典型工况)
  > 35% 饱和段(黏土地块)

田间作业最常用的传感器使用窗口恰好是 15–30%,本文标定范围(0–23.3%)的上端只覆盖到这一窗口的中段。25% 以上的工况完全没有数据。

5.3 修改建议详细方案

路径 A:补做 25–35% 高含水率段标定(推荐用于追求工程可用性的版本)

操作步骤:

  1. 配置 4 个新含水率梯度:25 / 28 / 31 / 34% 体积含水率
  2. 在 22°C 恒温下采集,每梯度 1650 个样本(与原标定一致)
  3. 重新训练 GBANet(用 0–34% 共 12 个梯度)
  4. 报告全量程下的 RMSE 与 R²

预期结果:高含水率段可能因电导饱和、光谱穿透深度有限等物理因素导致灵敏度下降,RMSE 可能略上升。但这才是传感器在田间灌溉后能否使用的真实指标。

路径 B:明确声明现有量程(最低成本)

操作步骤:

  1. 在摘要中明确:“静态标定覆盖 0–23.3% 体积含水率范围,本文报告的 RMSE 与 R² 仅在此范围内有效。25% 以上高含水率段未做验证。”
  2. §6.2 展望补一项:“将传感器适用范围扩展至 25% 以上高含水率段(灌溉后工况)。”

5.4 严重度判定依据

判定为 medium,依据如下:

  1. 影响范围:影响摘要与结论的核心数字解读,但不涉及方法本身的错误
  2. 修复成本:路径 B 仅需补 2-3 句话,工作量极低;路径 A 需补做试验(约 1 周)
  3. 答辩相关性:答辩委员会询问“传感器在田间灌溉后能否使用”时,作者需要明确量程边界

意见 6:图表与文字校对类合并

6.1 详细问题清单(按章节顺序)

第三章(硬件设计)

校对项 1:§3.5 PT100 温度范围标注

原文(p.28):"封装尺寸为 2.3 mm × 2.1 mm × 0.9 mm,并具备 −70 至 +300° 的宽温域"

问题:温度单位 ℃ 缺失,只标"−70 至 +300°"
正确:−70 至 +300℃ 或 −70 至 +300°C

校对项 2:§3.3.2 表 3-2 列名

表 3-2 列名为"最大感光范围 / nm",实际数据为"峰值响应波长"(470 / 1600 / 570 / 940 nm)
"范围"应为一个区间(如 400–600 nm),但单一数值(如 470 nm)表示的是峰值

正确:列名应改为"峰值响应波长 / nm"
同时:表 3-3 对同一物理量用了"接收范围(400–550 峰值 470)"等不同表述,前后不统一

校对项 3:§3.2 LED 发散角

表 3-3 四种 LED 的发散角统一标 120°
问题:不同型号 LED 的发散角通常不同(如 SMD LED 与 lensed LED 差距 30–60°)
全标 120° 未对应各型号 datasheet 实测值

建议:核对各 LED 的 datasheet,若实际有差异应据实标注;
      若发散角对光路设计不敏感,可在 §3.2 简注"对发散角不敏感,统一按 120° 处理"

校对项 4:§3.7 / §5.2 ADC 采集频率口径

§3.7 描述 STM32F407VET6 含 "3 路 12 位 ADC",但 6 路模拟信号的采集口径未说明:
  - 是 3 路 ADC 各采 2 个通道(共 6 通道 × 单 ADC 7 kHz = 总 21 kHz?)
  - 还是单 ADC 用 DMA 顺序扫描 6 个通道(单通道 7/6 ≈ 1.17 kHz?)

§5.2.1 试验中 f_ADC 取值范围 1–50 kHz,最终选 7 kHz
问题:7 kHz 是单通道频率还是总频率?文中未明示

影响:直接影响读者对 §5.2.1 "f_ADC 选 7 kHz" 的物理意义解读,以及对"7 km/h 下 7 kHz × 单段约 0.13 秒"
      统计稳定性的判断

第四章(标定与融合模型)

校对项 5:§4.1.2 “象鼻喷雾瓶”

原文(p.36):"采用装满蒸馏水的象鼻喷雾瓶向袋内进行喷雾加水"

问题:口语化用词,正式学位论文宜改为"喷雾器"或"喷壶"

校对项 6:§4.1.3 温度标定方程系数虚精度

原文公式 (4-10):Temp = 153.465355V − 213.209317, R² = 0.998197

问题:系数 6 位小数(153.465355、213.209317),但 §3.5 温度模块未给出最小可分辨温度
      (即温度模块的本征噪声水平)

虚精度估算:
  若温度模块本征噪声约 0.01°C(典型 PT100 + 差分放大电路),
  对应电压噪声约 0.01 / 153.5 ≈ 6.5 × 10⁻⁵ V
  此噪声水平下,系数 153.465355 最末 3 位(5355)完全淹没在噪声中

建议:系数改为 4 位有效数字 "Temp ≈ 153.5 V − 213.2"
      并在 §3.5 补充温度模块的本征噪声水平与最小可分辨温度

校对项 7:§4.1.4 “12% 含水率” / “15% 含水率” 简称口径

原文(p.41–42):"以 12% 含水率为例……进一步对比 12% 和 15% 两种含水率条件下的响应曲线"
实际试验对象:12.9% 与 16.0% 两个含水率
问题:"12%" 是 12.9% 简称、"15%" 是 16.0% 简称——两处简称口径与实测体积含水率不一致

建议:统一为"12.9% 含水率为例……12.9% 和 16.0% 两种含水率条件下",与实际试验点对应

校对项 8:§4.2.5 / §4.3.1 公式编号重复

§4.2.5 公式 (4-23):MSE = (1/N) Σᵢ (yᵢ − ŷᵢ)²
§4.3.1 公式 (4-25):MSE = (1/N) Σᵢ (yᵢ − ŷᵢ)²

两条公式完全相同,编号冗余
建议:删除其中一处编号,仅在首次定义处引用即可

第五章(性能测试与试验)

校对项 9:§5.2 表 5-3 与 §5.2.1 实测含水率口径

表 5-3 (p.61) 标注:试验方案 = 第一阶段固定含水率(目标 13.5%)+ 第二阶段梯度含水率
§5.2.1 实测含水率:12.5%(非 13.5%)

问题:表 5-3 描述与实际不一致,未说明差异原因
建议:表 5-3 注释明示"目标 13.5%,实际配置后烘干法实测 12.5%"

跨章符号重用

校对项 10:α 符号在 §4.2.4 与 §5.2.1 含义不同

§4.2.4 公式 (4-20):α = Softmax(W_attn · P_inter + b_attn)
                    α 是注意力权重向量,无量纲

§5.2.1 公式 (5-21):δ(v) 中 α = 0.31%/(km/h)²
                    α 是过渡段二次项系数,量纲为 %/(km/h)²

问题:同一符号在不同章节代表不同物理量,未在公式定义处声明
建议:§5.2.1 中改用其他符号(如 a 或 c₁),避免与 §4.2.4 重用

校对项 11:k 符号在 §2.3.1 与 §4.1.4 量纲不同

§2.3.1 公式 (2-1):EC_t = k·T + b
                    k 是温度敏感系数,量纲为"电导率/温度"
                    (引自李英 2025)

§4.1.4 公式 (4-12):V = k·T + b
                    k 是温度系数,量纲为"电压/温度" V/°C

问题:两个 k 量纲不同,符号重用未做声明
建议:§4.1.4 改用 k_V 或 m(电压温度系数),与 §2.3.1 的 k_EC 区分

参考文献

校对项 12:[METER, 2026a] URL 含 AI 追踪参数

原条目:METER, [2026a]. TEROS 12 [EB]. ...?utm_source=chatgpt.com [2026-03-31]

问题:URL 末尾 `?utm_source=chatgpt.com` 追踪参数,疑为 AI 辅助检索遗留链接

建议:替换为不含 UTM 参数的官网直链

校对项 13:Kalman / RTS 原始文献缺失

论文将 Kalman 滤波 + RTS 后向平滑作为核心后处理算法(§5.2.1 公式 5-10 ~ 5-19),
但参考文献未引用以下原始论文:
  - Kalman, R.E. (1960). A New Approach to Linear Filtering and Prediction Problems.
    Journal of Basic Engineering, 82(1), 35–45.
  - Rauch, H.E., Tung, F., Striebel, C.T. (1965). Maximum Likelihood Estimates of Linear
    Dynamic Systems. AIAA Journal, 3(8), 1445–1450.

建议:补引以上 2 条原始文献,使方法部分的引用链完整

其他细节

校对项 14:§3.3.2 LED 型号字母数字组合

§3.3.2 列出 LED 型号 "ET-0603SIBC-3A-HG" 等,字母数字组合较长
建议:在校对阶段重点核对每个型号字符无误,避免笔误

校对项 15:[METER, 2026a]、[Sensoterra, 2026a/b]、[SmartFirmer, 2026b] 年份格式

4 条网页类参考文献年份带方括号写作 [2026a] / [2026b],与其他条目格式(AUTHOR, 2024.)不一致
建议:统一格式,去除方括号或全部加方括号

6.2 严重度判定依据

判定为 low(合并),依据如下:

  1. 单条严重度:每条都是校对级,单独不构成核心评审意见
  2. 累积影响:15 条校对类问题累积起来会影响论文整体表述精度与阅读流畅度
  3. 合并必要性:按 CLAUDE.md §意见数量与构成 的硬规范,至少 1 条校对类占位以示通读过;本意见即承担此功能
  4. 修复成本:全文通校 + 逐条修正约 2–3 天工作量

6.3 修改建议

  • 全文通校一遍,逐条修正以上 15 项
  • 重点核对:单位符号、表格列名与实际数据对应、符号在不同章节是否重用、口径表述前后一致性、参考文献格式与可访问性
  • 配合意见 1-5 的修改一起完成时,可在文档审阅阶段一并处理

附录 A:严重度判定汇总

意见编号   严重度        定位                                修改成本
意见 1     high          §4.3.1 数据泄露                     2–4 天(补做交叉验证)
意见 2     high          §5.2.1 补偿过拟合 + 沿用未验        半天(声明)或 1–2 周(补做独立验证)
意见 3     high          §5.4 + §4.1.4 适应性试验缺口        2 周(补做 3×3 矩阵 + 跨温度评估)
意见 4     high          摘要 + §5.2.2 MRE 追溯性            半天(增加表列 + 改写边界条件)
意见 5     medium        §4.1.2 标定量程未覆盖灌溉后段      半天(声明)或 1 周(补做高含水率段)
意见 6     low(合并)   散见各章 15 项校对                  2–3 天(全文通校)

总体修复成本估算:
  最低成本路径(仅声明边界条件 + 全文通校):约 1 周
  推荐路径(声明 + 补做关键独立验证):约 3–4 周

附录 B:评审立场总结

总体结论:修改后同意答辩。

判定逻辑

  1. 论文工作量充实,硬件部分从结构外壳、光路、PCB 到嵌入式主控都做完了,达到专业硕士学位论文应有的工程深度
  2. 4 条较严重的问题均集中在评估方法严谨性与实验覆盖窗口,不涉及伪造数据、抄袭、原创性失实等学位授予的红线问题
  3. 这些问题的核心是“声称的能力与实验数据支撑能力之间的差距”——通过补做独立验证试验或明确声明现有结果适用边界,均可在合理时间内修复
  4. 不构成“不同意答辩”的判定依据;亦不属于“无需修改即可同意答辩”——意见 1-3 涉及核心创新点的可推广性,需要补强后才能让答辩委员会对传感器的工程可用性做出准确判断

与凡科硕士 rubric 的对应(提交版填写参考):

  • 选题与文献综述:良(综述偏遥感 / 工业类大型多模态,与本文 task 衔接弱,但覆盖面够)
  • 工作量与难度:良(硬件 + 算法 + 动态平台 + 多试验组,工作量充实,但分析深度有待加强)
  • 研究方法与创新:中(4 项创新中 R²=0.99 与速度分段补偿两项均存在评估方法严谨性问题)
  • 论文撰写与表述:中(核心定量指标可追溯性不足,校对问题累计 15 项)
  • 总体评价:良
  • 是否同意答辩:同意答辩(修改后),但建议作者就意见 1-3 在答辩中做出回应

附录 C:核查方法与冷启对抗性校验关注点提示

供后续冷启对抗性校验 subagent 参考——本起草 agent 在以下几处做了较强的判断,建议冷启 agent 重点核对:

  1. 意见 1 数据泄露判定:图 4-14 中 6 个模型 train ≈ test 的现象,是否真的源于 8:2 随机划分?请冷启 agent 独立读 PDF 核对图 4-14 数据,并核对 §4.3.1 划分方式描述
  2. 意见 2 反算 δ(v):用作者给定参数代回式 (5-21) 反算 8 个数据点,残差 RMS ≈ 0.11%——请冷启 agent 独立重做这一反算,验证残差数值
  3. 意见 4 MRE 反算:用 √(2/π)·√(bias²+SD²)/y 估算单点 MRE,5 梯度均值 ≈ 15.0% 与摘要 15.07% 差距 < 0.1%——请冷启 agent 独立重做这一反算,验证是否真的自洽
  4. 意见 3 子问题 (b) 温度补偿声称:§4.2.2 是否真的把“门控机制”声称为“温度感知能力”?请冷启 agent 独立读 §4.2.2 p.45 核实声称的字面表述
  5. 意见 6 校对项:15 项校对中重点是否准确?请冷启 agent 独立抽查若干项(如 §3.5 PT100 单位、§4.1.3 系数 6 位小数)

以上 5 项是起草 agent 自信度较高但建议冷启核对的关键判断点。