站长信息
jeffery.xu
jeffery.xu

软件工程师

欢迎访问我的个人笔记网站!我是一名热爱技术的开发者,专注于Web开发和技术分享。

811495111@qq.com
18521510875
筛选

个人笔记

2.1.3信用评分模型数据清洗和标注流程设计
人工智能学习

代码:

import pandas as pd

# Load the data

data = pd.read_csv('finance数据集.csv’)

# 显示前五行的数据

print(data.head())

import matplotlib.pyplot as plt

import seaborn as sns

# 设置图像尺寸

plt.figure(figsize=(12, 8))

# 识别数值列用于箱线图

numeric_cols = data.select_dtypes(include=['float64', 'int64']).columns

# 创建箱线图

for i, col in enumerate(numeric_cols, 1):

plt.subplot(3, 4, i)

sns.boxplot(x=data[col])

plt.title(col)

plt.tight_layout()

plt.show()

# 使用IQR处理异常值

Q1 = data[numeric_cols].quantile(0.25)

Q3 = data[numeric_cols].quantile(0.75)

IQR = Q3 - Q1

# 移除异常值

data_cleaned = data[

~((data[numeric_cols] < (Q1 - 1.5 * IQR)) | (data[numeric_cols] > (Q3 + 1.5 * IQR))).any(axis=1)]

# 检查重复值

duplicates = data_cleaned.duplicated()

num_duplicates = duplicates.sum()

data_cleaned = data_cleaned[~duplicates]

print(f'删除的重复行数: {num_duplicates}')

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

data_cleaned[numeric_cols] = scaler.fit_transform(data_cleaned[numeric_cols])

# SeriousDlqin2yrs设为目标变量

target_variable = 'SeriousDlqin2yrs'

from sklearn.model_selection import train_test_split

# 定义特征和目标

X = data_cleaned.drop(columns=['SeriousDlqin2yrs','Unnamed: 0'])

y = data_cleaned[target_variable]

# 划分数据

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 显示划分后的数据形状

print(f'训练数据形状: {X_train.shape}')

print(f'测试数据形状: {X_test.shape}')

# 保存清洗后的数据到CSV

cleaned_file_path = '2.1.3_cleaned_data.csv'

data_cleaned.to_csv(cleaned_file_path, index=False)

2.1.2低碳生活行为影响因素数据清洗和标注流程设计
人工智能学习

代码:

import pandas as pd

# 读取一个Excel文件,并将读取到的数据存储在变量data

data = pd.read_excel('大学生低碳生活行为的影响因素数据集.xlsx')

# 打印出数据集的前5

print(data.head())

 

# 处理数据集中的缺失值

initial_row_count = data.shape[0]

data = data.dropna()

final_row_count = data.shape[0]

print(f'处理后数据行数: {final_row_count}, 删除的行数: {initial_row_count - final_row_count}')

# 删除重复行

data = data.drop_duplicates()

 

from sklearn.preprocessing import StandardScaler

numerical_features = ['4.您的月生活费○≦1,000   1,001-2,000   2,001-3,000   ○≧3,001']

scaler = StandardScaler()

data[numerical_features] = scaler.fit_transform(data[numerical_features])

 

selected_features = ['1.您的性别○男性   ○女性', '2.您的年级○大一   ○大二   ○大三   ○大四', '3.您的生源地○农村   ○城镇(乡镇)   ○地县级城市  ○省会城市及直辖市','4.您的月生活费○≦1,000   1,001-2,000   2,001-3,000   ○≧3,001','5.您进行过绿色低碳的相关生活方式吗?', '6.您觉得低碳,与你的生活关系密切吗?','7.低碳生活是否会成为未来的主流生活方式?', '8.您是否认为低碳生活会提高您的生活质量?']

X = data[selected_features]

 

# 创建目标变量

y = data['低碳行为积极性']

 

from sklearn.model_selection import train_test_split

# 数据划分

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

 

# 保存处理后的数据

cleaned_data = pd.concat([X, y], axis=1)

cleaned_data.to_csv('2.1.2_cleaned_data.csv', index=False, encoding='gbk')

2-1-1智慧交通中燃油效率模型的数据清洗和标注流程设计
人工智能学习

在现代交通中,燃油效率(MPG)是衡量汽车性能和交通系统优化的重要指标之一。高效的燃油利用不仅能够降低车辆运营成本,还能减少碳排放,促进环保。开发一个用于预测汽车燃油效率的模型可以帮助智慧交通系统优化路线规划和车辆调度,从而提升整体交通效率和减少能源消耗。此外,这样的模型还可以帮助消费者做出更明智的购车决策,并帮助厂商优化汽车设计。现要求根据提供的汽车燃油效率数据集,补全 2.1.1.ipynb 代码。选择合适的特征,开发一个燃油效率预测模型。在开发预测模型之前,首先要对数据进行数据清洗和标注,请完成下面的数据预处理任务,并设计一套标注流程规范:
(1)正确加载数据集,并显示前五行的数据及数据类型。
(2)检查数据集中的缺失值并删除缺失值所在的行。
(3)将“horsepower”列转换为数值类型,并处理转换中的异常值。
(4)对数值型数据进行标准化处理,确保数据在同一量纲下进行分析。
(5)根据业务 需求和数据特性, 选择对燃油效率预 测最有用的特征 :选择以下特征:'cylinders'、'displacement'、'horsepower'、'weight'、'acceleration'、'model year'、
'origin'
(6)将“mpg”设为目标变量并标注;
(7)对数据进行标注和划分;
(8)保存处理后的数据,并命名为:2.1.1_cleaned_data.csv,保存到考生文件夹;
(9) 制 定 数 据 清 洗 和 标 注 规 范 , 将 答 案 写 到 答 题 卷 文 件 中 , 答 题 卷 文 件 命 名 为“2.1.1.docx”,保存到考生文件夹;
(10)将以上代码以及运行结果,以 html 格式保存并命名为 2.1.1.html,保存到考生文件夹,考生文件夹命名为“准考证号+身份证后 6 位”。

代码:

加载数据集并显示数据集的前五行 1

    data = pd.read_csv('auto-mpg.csv')  

    print("数据集的前五行:")

    print(data.head())

    # 显示每一列的数据类型

    print(data.dtypes)

    # 检查缺失值并删除缺失值所在的行  2

    print("\n检查缺失值:")

    print(data.isnull().sum())

    data = data.dropna()

    # 'horsepower' 列转换为数值类型,并处理转换中的异常值 1

    data['horsepower'] = pd.to_numeric(data['horsepower'], errors='coerce')

    data = data.dropna(subset=['horsepower'])

    # 显示每一列的数据类型

    print(data.horsepower.dtypes)

    # 检查清洗后的缺失值

    print("\n检查清洗后的缺失值:")

    print(data.isnull().sum())

    from sklearn.preprocessing import StandardScaler

    # 对数值型数据进行标准化处理 1

    numerical_features = ['displacement', 'horsepower', 'weight', 'acceleration']

    scaler = StandardScaler()

    data[numerical_features] = scaler.fit_transform(data[numerical_features])

    from sklearn.model_selection import train_test_split

    # 选择特征和目标变量 2

    selected_features = ['cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin']

    X = data[selected_features]

    y = data['mpg']

    # 划分数据集为训练集和测试集 1

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # 将特征和目标变量合并到一个数据框中

    cleaned_data = X.copy()

    cleaned_data['mpg'] = y

    # 保存清洗和处理后的数据

    cleaned_data.to_csv('2.1.1_cleaned_data.csv', index=False)

    # 打印消息指示文件已保存

    print("\n清洗后的数据已保存到 2.1.1_cleaned_data.csv")

软件支持时间
工作笔记
软件 版本 支持结束时间
Windows server 2022 2026 年 10 月
IIS 10 2029 年 1 月 9 日(基于 Windows Server 2019 上的 IIS 10,若部署在其他系统可能有所不同)
Android 10 2023 36
Java Jdk 1.8.0-71 2030 年 12 月
.net framework 4.8 仍受支持,无结束时间
Newtonsoft.Json 9.0.1 无明确的整体支持结束时间,有新版本
Log4net 2.0.8 无明确的整体支持结束时间,有新版本
Sql server sql server 2022 2032 年 10 月 11 日(主流支持结束于 2027 年 10 月 11 日,扩展支持结束于 2032 年 10 月 11 日)

 

1-1-5智能交通系统的数据采集、处理和审核流程设计
人工智能学习

某智能交通系统希望通过车辆的行驶数据,利用人工智能技术进行交通流量预测和拥堵预警。你作为人工智能训练师,需要设计一套全面的业务数据采集、处理和审核流程,确保数据在进入交通流量分析系统之前经过严格的采集、清洗、审核和预处理。这里提供一个车辆行驶数据集(vehicle_traffic_data.csv),包含以下字段:
 VehicleID: 车辆 ID
 DriverName: 驾驶员姓名
 Age: 年龄
 Gender: 性别(Male/Female)
 Speed: 车速(km/h)
 TravelDistance: 行驶距离(km)
 TravelTime: 行驶时间(min)
 TrafficEvent: 交通事件(Normal, Accident, Traffic Jam,
Breakdown)
你作为人工智能训练师,根据提供的 vehicle_traffic_data.csv 数据集和 Python 代码框架
(1.1.5.ipynb),完成以下数据的采集、处理和审核任务,确保数据的准确性和可靠性。请按
照以下要求完成任务,确保结果准确并保存相应的截图。
人工智能训练师(三级)操作技能复习题
15 / 116
(1)数据采集:
通过运行 Python 代码(1.1.5.ipynb),从本地文件 vehicle_traffic_data.csv 中读取数据,
并将数据加载到 DataFrame 中。显示前 5 行数据截图以 JPG 的格式保存,命名为“1.1.5-1”。
(2)数据清洗与预处理:
通过运行 Python 代码(1.1.5.ipynb)对数据进行清洗和预处理,具体要求如下:
 处理缺失值:对缺失值进行删除。
 数据类型转换:确保每个字段的数据类型正确。
 处理异常值:删除不合理的年龄、车速、行驶距离和行驶时间。
清洗后的数据保存为新文件 cleaned_vehicle_traffic_data.csv。
(3)数据合理性审核: 通过运行 Python 代码审核以下字段的合理性:
 年龄:应在 18 到 70 岁之间。
 车速:应在 0 到 200 km/h 之间。
 行驶距离:应在 1 到 1000 km 之间。
 行驶时间:应在 1 到 1440 分钟(24 小时)之间。
对不合理的数据进行标记,并将审核结果截图以 JPG 的格式保存,命名为“1.1.5-2”。
(4)数据统计:
通过运行 Python 代码(1.1.5.ipynb),完成以下数据统计任务:
 统计每种交通事件的发生次数。
 统计不同性别的平均车速、行驶距离和行驶时间。
 统计不同年龄段的驾驶员数(18-25 岁、26-35 岁、36-45 岁、46-55 岁、
56-65 岁、65 岁以上)。
将统计结果分别截图以 JPG 的格式保存,分别命名为“1.1.5-3”、“1.1.5-4”、“1.1.5-5”。
所有结果文件储存在桌面新建的考生文件夹中,文件夹命名为“准考证号+身份证号后
六位”。

 

代码:

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

# 1. 数据采集

# 从本地文件中读取数据  2

data = pd.read_csv('vehicle_traffic_data.csv')

print("数据采集完成,已加载到DataFrame")

# 打印数据的前5条记录

print(data.head())

# 2. 数据清洗与预处理

# 处理缺失值  2

data = data.dropna()

# 数据类型转换

data['Age'] = data['Age'].astype(int)  # Age数据类型转换 1

data['Speed'] = data['Speed'].astype(float)  # Speed数据类型转换 1

data['TravelDistance'] = data['TravelDistance'].astype(float)  # TravelDistance数据类型转换 1

data['TravelTime'] = data['TravelTime'].astype(float)  # TravelTime数据类型转换 1

# 处理异常值  2

data = data[(data['Age'].between(18, 70)) &(data['Speed'].between(0, 200)) & (data['TravelDistance'].between(1, 1000)) & (data['TravelTime'].between(1, 1440))]

# 保存清洗后的数据  1

data.to_csv('cleaned_vehicle_traffic_data.csv', index=False)

print("数据清洗完成,已保存为 'cleaned_vehicle_traffic_data.csv'")

# 3. 数据合理性审核

# 审核字段合理性 1

unreasonable_data = data[~((data['Age'].between(18, 70)) &

                                    (data['Speed'].between(0, 200)) &

                                    (data['TravelDistance'].between(1, 1000)) &

                                    (data['TravelTime'].between(1, 1440)))]

print("不合理的数据:\n", unreasonable_data)

 

# 4. 数据统计

# 统计每种交通事件的发生次数  2

traffic_event_counts = data['TrafficEvent'].value_counts()

print("每种交通事件的发生次数:\n", traffic_event_counts)

 

# 统计不同性别的平均车速、行驶距离和行驶时间  2

gender_stats = data.groupby('Gender').agg(

{'Speed': 'mean', 'TravelDistance': 'mean', 'TravelTime': 'mean'})

print("不同性别的平均车速、行驶距离和行驶时间:\n", gender_stats)

 

# 统计不同年龄段的驾驶员数  2

age_bins = [18, 26, 36, 46, 56, 66, np.inf]

age_labels = ['18-25', '26-35', '36-45', '46-55', '56-65', '65+']

data['AgeGroup'] = pd.cut(data['Age'], bins=age_bins, labels=age_labels, right=False)

age_group_counts = data['AgeGroup'].value_counts()

print("不同年龄段的驾驶员数:\n", age_group_counts)

1-1-1
人工智能学习

某医疗机构计划引入智能医疗系统,以提升诊断效率和准确性。通过分析患者的历史
数据,使用机器学习算法预测患者的健康风险,从而辅助医生进行诊断和治疗。为此,该机
构需要设计一套全面的业务数据处理流程,确保数据处理的高效性和准确性,为人工智能模
型提供可靠的输入数据。
我们提供一个患者数据集(patient_data.csv),包含以下字段:
PatientID: 患者 ID
Age: 年龄
BMI: 体重指数
BloodPressure: 血压
Cholesterol: 胆固醇水平
DaysInHospital: 住院天数
你作为人工智能训练师,根据提供的数据集和 Python 代码框架(1.1.1.ipynb),完成以
下数据的统计和分析,为智能医疗系统提供可靠的数据支持。
人工智能训练师(三级)操作技能复习题
(1)通过补全并运行 Python 代码(1.1.1.ipynb)分别统计住院天数超过 7 天的患者数
量以及其占比。这类患者被定义为高风险患者,反之为低风险患者。将上述统计结果截图以
JPG 的格式保存,命名为“1.1.1-1”。
(2)通过补全并运行 Python 代码(1.1.1. ipynb)统计不同 BMI 区间中高风险患者的
比例和统计不同 BMI 区间中的患者数。BMI 区间分类设置为:偏瘦(低于 18.5),正常(18.5~
23.9),超重(24.0~27.9),肥胖(28.0 及以上),将上述统计结果截图以 JPG 的格式保存,
命名为“1.1.1-2”。
(3)通过补全并运行 Python 代码(1.1.1. ipynb)统计不同年龄区间中高风险患者的比
例和统计不同年龄区间中的患者数。年龄区间分类设置为:年龄区间分类设置为:≤25 岁,
26-35 岁,36-45 岁,46-55 岁,56-65 岁,>65 岁,将上述统计结果截图以 JPG 的格式保存,
命名为“1.1.1-3”。
所有结果文件储存在桌面新建的考生文件夹中,文件夹命名为“准考证号+身份证号后
六位”

 

代码:

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

# 读取数据集

data = pd.read_csv('patient_data.csv')

# 1. 统计住院天数超过7天的患者数量及其占比

# 创建新列'RiskLevel',根据住院天数判断风险等级

data['RiskLevel'] = np.where(data['DaysInHospital']>7, '高风险患者', '低风险患者')

# 统计不同风险等级的患者数量

risk_counts = data['RiskLevel'].value_counts()

# 计算高风险患者占比

high_risk_ratio = risk_counts['高风险患者'] / len(data)

# 计算低风险患者占比

low_risk_ratio = risk_counts['低风险患者'] / len(data)

# 输出结果

print("高风险患者数量:", risk_counts['高风险患者'])

print("低风险患者数量:", risk_counts['低风险患者'])

print("高风险患者占比:", high_risk_ratio)

print("低风险患者占比:", low_risk_ratio)

# 2. 统计不同BMI区间中高风险患者的比例和患者数

# 定义BMI区间和标签

bmi_bins = [0, 18.5, 24.9, 29.9, np.inf]

bmi_labels = ['偏瘦', '正常', '超重', '肥胖']

# 根据BMI值分配BMI区间标签

data['BMIRange'] = pd.cut(data['BMI'], bins=bmi_bins, labels=bmi_labels,right=False)

# 计算每个BMI区间中高风险患者的比例

bmi_risk_rate = data.groupby('BMIRange')['RiskLevel'].apply(lambda x: (x == '高风险患者').mean())

# 统计每个BMI区间的患者数量

bmi_patient_count = data['BMIRange'].value_counts()

# 输出结果

print("BMI区间中高风险患者的比例和患者数:")

print(bmi_risk_rate)    #高风险患者的比例

print(bmi_patient_count)    #高风险患者的患者数

# 3. 统计不同年龄区间中高风险患者的比例和患者数

# 定义年龄区间和标签

age_bins = [0, 25, 35, 45, 55, 65, np.inf]

age_labels = ['25', '26-35', '36-45', '46-55', '56-65', '65']

# 根据年龄值分配年龄区间标签

data['AgeRange'] = pd.cut(data['Age'], bins=age_bins, labels=age_labels,right=False)

# 计算每个年龄区间中高风险患者的比例

age_risk_rate = data.groupby('AgeRange')['RiskLevel'].apply(lambda x: (x == '高风险患者').mean())

# 统计每个年龄区间的患者数量

age_patient_count = data['AgeRange'].value_counts()

 

# 输出结果

print("年龄区间中高风险患者的比例和患者数:")

print(age_risk_rate)   #高风险患者的比例

print(age_patient_count)   #高风险患者的患者数

1-1-4
人工智能学习

代码:

import pandas

# 1. 数据采集

# 从本地文件中读取数据  2

data = pandas.read_csv('user_behavior_data.csv')

print("数据采集完成,已加载到DataFrame")

# 打印数据的前5条记录  2

print(data.head())

# 2. 数据清洗与预处理

# 处理缺失值  2

data = data.dropna()

# 数据类型转换

data['Age'] = data['Age'].astype(int)  # Age数据类型转换 2

data['PurchaseAmount'] = data['PurchaseAmount'].astype(float)  # PurchaseAmount数据类型转换  2

data['ReviewScore'] = data['ReviewScore'].astype(int)  # ReviewScore数据类型转换 2

# 处理异常值  2

data = data[(data['Age'].between(18, 70)) &(data['PurchaseAmount'] > 0) &(data['ReviewScore'].between(1, 5))]

# 数据标准化

data['PurchaseAmount']= (data['PurchaseAmount'] - data['PurchaseAmount'].mean()) / data['PurchaseAmount'].std()  # PurchaseAmount数据标准化 2

data['ReviewScore'] = (data['ReviewScore'] - data['ReviewScore'].mean()) / data['ReviewScore'].std()  # ReviewScore数据标准化 2

# 保存清洗后的数据  1

data.to_csv('cleaned_user_behavior_data.csv', index=False)

print("数据清洗完成,已保存为 'cleaned_user_behavior_data.csv'")

# 3. 数据统计

# 统计每个购买类别的用户数

purchase_category_counts = data['PurchaseCategory'].value_counts()

print("每个购买类别的用户数:\n", purchase_category_counts)

# 统计不同性别的平均购买金额
gender_purchase_amount_mean = data.groupby('Gender')['PurchaseAmount'].mean()

print("不同性别的平均购买金额:\n", gender_purchase_amount_mean)

# 统计不同年龄段的用户数

bins = [18, 25, 35, 45, 55, 65, 70]

labels = ['18-25', '26-35', '36-45', '46-55', '56-65', '65+']

data['AgeGroup'] = pandas.cut(data['Age'], bins=bins, labels=labels, right=False)

age_group_counts = data['AgeGroup'].value_counts().sort_index()

print("不同年龄段的用户数:\n", age_group_counts)

1-1-3
人工智能学习

代码:

import pandas as pd

# 读取数据集

data = pd.read_csv('credit_data.csv')

# 1. 数据完整性审核

missing_values = data.isnull().sum()  # 数据缺失值统计 2

duplicate_values = data.duplicated().sum()  # 数据重复值统计 2

# 输出结果

print("缺失值统计:")

print(missing_values)

print("重复值统计:")

print(duplicate_values)

 

# 2. 数据合理性审核

data['is_age_valid'] = data['Age'].between(18, 70)  # Age数据的合理性审核 2

data['is_income_valid'] = data['Income'] > 2000  # Income数据的合理性审核 2

data['is_loan_amount_valid'] = data['LoanAmount'] < (data['Income'] * 5) 

# LoanAmount数据的合理性审核 2

data['is_credit_score_valid'] = data['CreditScore'].between(300, 850) 

# CreditScore数据的合理性审核 2

# 合理性检查结果

validity_checks=data[['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid']].all(axis=1)

data['is_valid'] = validity_checks

# 输出结果

print("数据合理性检查:")

print(data[['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid','is_valid']].describe())

# 3. 数据清洗和异常值处理

# 标记不合理数据

invalid_rows = data[~data['is_valid']]

# 删除不合理数据行

cleaned_data = data[data['is_valid']]

# 删除标记列

cleaned_data = cleaned_data.drop(columns=['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid', 'is_valid'])

# 保存清洗后的数据

cleaned_data.to_csv('cleaned_credit_data.csv', index=False)

print("数据清洗完成,已保存为 'cleaned_credit_data.csv'")

1-1-2
人工智能学习

代码:

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

# 读取数据集

data = pd.read_csv('sensor_data.csv')

# 1. 传感器数据统计

# 对传感器类型进行分组,并计算每个组的数据数量和平均值

sensor_stats = data.groupby('SensorType')['Value'].agg(['count', 'mean'])

# 输出结果

print("传感器数据数量和平均值:")

print(sensor_stats)

 # 2. 按位置统计温度和湿度数据

# 筛选出温度和湿度数据,然后按位置和传感器类型分组,计算每个组的平均值

location_stats=data[data['SensorType'].isin(['Temperature','Humidity'])].groupby(['Location', 'SensorType'])[ 'Value'].mean().unstack()

# 输出结果

print("每个位置的温度和湿度数据平均值:")

 print(location_stats)

 # 3. 数据清洗和异常值处理

# 标记异常值

data['is_abnormal'] = np.where( ((data['SensorType'] == 'Temperature') & ((data['Value'] < -10) | (data['Value'] > 50))) | ((data['SensorType'] == 'Humidity') & ((data['Value'] < 0) | (data['Value'] > 100))), True, False)

 # 输出异常值数量

print("异常值数量:", data['is_abnormal'].sum())

# 填补缺失值

# 使用前向填充和后向填充的方法填补缺失值

data['Value'].fillna(method='ffill', inplace=True)

data['Value'].fillna(method='bfill', inplace=True)

# 保存清洗后的数据

# 删除用于标记异常值的列,并将清洗后的数据保存到新的CSV文件中

cleaned_data = data.drop(columns=['is_abnormal'])

cleaned_data.to_csv('cleaned_sensor_data.csv', index=False)

print("数据清洗完成,已保存为 'cleaned_sensor_data.csv'")

microsoft.web.ui.controls 的 treeview 控件绑定问题
工作笔记

周五遇到一个问题,treeview控件绑定菜单数据,当菜单节点过少的时候,报错了。仔细查找了好久,找不到原因。只知道databind()就报错了。查看了报错日志,发现有Page.url报错,甚是奇怪。最后反编译了dll,找到了问题。问题在于下面这个方法:

控件的 ReadXmlSrc 先把 TreeNodeSrc 当作 URI 去读取(GetXmlReaderFromUri);只有当该 URI 读取抛异常时才回退到把字符串当 XML(GetXmlReaderFromString)。
当节点较少时,编码后的相对 URI 比较短,请求成功返回了内容(或服务器对短 URL 做了特殊处理),解析器就直接在那个输入流上解析并在 DTD/属性处报错 —— 因为那不是一个纯净的 XML 输入(被当作 URL 处理后产生了问题)。
当节点很多时,编码后的 URL 变得更长或触发服务器拒绝/超时等错误,导致 GetXmlReaderFromUri 抛出异常,代码走到 catch 分支再用字符串解析,这样就不会触发 URI 路径上的那类错误,所以看起来“节点多反而不报错”。微软的控件真是一言难尽