绪论
人工智能是研究、开发用于模拟延伸和扩展人类智能的理论、方法、技术及应用系统的一门新技术科学,是计算机科学的一个分支。人们为了让计算机能想人类一样感知、思考、决策等,从20世纪50年代起就进行了很多努力。

传统计算机视觉始于20世纪50年代,传统计算机视觉是指在深度学习广泛应用之前,用于处理和分析图像的经典算法和技术。这些方法通常依赖于手工设计的特征提取和基于数学模型的分析,而不是通过学习大量数据来自动发现特征。
传统计算机视觉的主要技术包括:主要技术包括边缘检测(如Canny)、特征检测与描述(如SIFT、ORB)、图像分割(阈值分割、分水岭算法)、图像变换(傅里叶变换、霍夫变换)以及3D视觉(立体视觉、结构光扫描)。这些方法广泛应用于图像识别、视频监控、工业检测等领域,尤其在数据有限或资源受限的情况下仍然有效。
ImageNet竞赛的图像分类错误率:

计算机视觉的主要任务及其应用:图像分类、对象检测、语义分割、图像生成


深度学习的发展:
The history of deep learning is unusual in science. The perseverance of a small cabal of scientists, working over twenty-five years in a seemingly unpromising area, has revolutionized a field and dramatically impacted society.
深度学习的历史在科学史上是极不寻常的,一小撮不屈不挠的科学家在毫无未来的领域坚持了25年,最终极大的影响了世界。——《Understanding deep learning》
人工智能的三大要素:算法、算力、数据

5月11日,深蓝以3.5比2.5的比分赢得了第六场比赛,战胜国际象棋世界冠军卡斯帕罗夫。

“深蓝”每秒可以检测2亿个不同的国际象棋位置,依靠“深蓝”强大的计算能力穷举所有路数来选择最佳策略:“深蓝”靠硬算可以预判12步,卡斯帕罗夫可以预判10步。
从算到学:
围棋变数极多,一回合有250种可能,而一盘棋可以长达150回合。显然“深蓝”式的硬算在围棋上行不通。
Alpha Go胜利的秘诀不仅仅是计算机强大的计算能力,更依赖其精妙的算法。Alpha Go的算法的核心则依靠强化学习、深度学习和蒙特卡洛树搜索。“强化学习让Alpha Go有了自学能力,深度学习让Alpha Go通过数据驱动的机器学习有了估值量化能力,蒙特卡洛树则是一个连接所有技术和动作的框架。”
2017 年 5 月 23 日至 27 日
AlphaGo 在中国乌镇举行的三局比赛中,以 3:0 的比分战胜了当时世界排名第一的围棋选手柯洁。

人工智能的应用当然不会只是用来下棋,智能搜索、无人驾驶汽车、智能机器人……人工智能已经在试探着进入人类实际生活之中,许多人说,未来人类的大部分工作或许都将被人工智能取代。
人工智能的应用:
医疗图像识别
疾病检测与诊断:
- 自动检测:深度学习模型能够从CT、MRI、X光等医学影像中自动检测和识别疾病。例如,模型可以检测肺结节、乳腺肿块、脑肿瘤等病变。
- 分类:通过分析影像,深度学习可以将病变分类为不同类型,帮助医生做出准确的诊断。
图像分割:
- 区域分割:深度学习可以精确分割医学影像中的不同结构,如肿瘤区域与正常组织的边界。这对于治疗规划和术后评估非常重要。
图像增强与重建:
- 增强影像质量:深度学习技术可以用于增强影像的质量,减少噪声,提高图像的清晰度。
- 图像重建:在某些成像技术中,如MRI,深度学习可以用于图像的重建,提高成像速度和质量。
多模态融合:
- 融合多种影像数据:深度学习可以将来自不同模态(如CT和MRI)的影像数据进行融合,提供更全面的诊断信息。
预测与预后评估:
- 预测疾病进展:通过分析影像数据,深度学习可以预测疾病的进展情况,帮助制定个性化治疗方案。
- 预后评估:深度学习还可以用于评估患者的预后情况,预测治疗效果。
脑肿瘤语义分割:

骨折检测:

自动驾驶:
深度学习在自动驾驶中的应用非常广泛,并且已经成为推动自动驾驶技术进步的核心动力之一。以下是深度学习在自动驾驶中的主要应用领域:
1. 感知系统
深度学习用于处理和分析来自摄像头、激光雷达(LiDAR)、雷达等传感器的数据,以感知周围环境。这包括:
- 物体检测:识别和定位车辆、行人、交通标志、信号灯等物体。常用的技术包括卷积神经网络(CNN)和区域卷积神经网络(R-CNN)。
- 物体分割:将图像中的每个像素分类为不同的类别,如道路、行人、车辆等,以帮助自动驾驶系统理解场景的语义。
- 自由空间检测:识别可以安全行驶的区域,如道路边界和障碍物,这对规划车辆路径至关重要。
2. 定位与地图构建
自动驾驶汽车需要知道它在环境中的位置。深度学习帮助改进了基于视觉的定位和SLAM(同步定位与地图构建)技术:
- 视觉里程计(Visual Odometry):通过分析连续图像帧中的变化,计算出车辆的运动轨迹。
- 特征匹配与回环检测:使用深度学习模型在大规模地图中进行特征匹配,增强定位精度。
3. 路径规划
深度学习用于预测可能的驾驶路径,并制定最优驾驶路线:
- 驾驶策略预测:通过分析周围车辆的行为,预测未来的交通状况,并规划最优行驶路径。
- 轨迹生成与优化:生成适应复杂环境的平滑驾驶轨迹,确保安全和舒适。
4. 行为预测
深度学习帮助自动驾驶系统预测其他道路使用者(如行人和车辆)的行为:
- 运动预测:基于历史数据和当前环境预测其他车辆或行人的未来运动轨迹,从而避免碰撞。
- 意图识别:判断行人或其他驾驶者的意图,如是否打算横穿马路或变道。
5. 决策与控制
自动驾驶系统通过深度学习模型做出驾驶决策,并控制车辆执行这些决策:
- 端到端学习:直接从传感器数据生成控制指令(如转向、加速和制动),实现全自动驾驶。
- 强化学习:通过模拟环境中的试验和反馈,优化驾驶策略,使车辆能够在复杂场景中自适应调整。
6. 多传感器融合
深度学习还用于融合来自不同传感器的数据,如摄像头、LiDAR、雷达和GPS,以构建更精确和全面的环境感知模型。通过将不同类型的数据集成在一起,自动驾驶系统能够更好地应对不同的驾驶条件。
7. 驾驶辅助系统
深度学习支持高级驾驶辅助系统(ADAS)的功能,如自动紧急制动、车道保持辅助和自适应巡航控制,这些功能在完全自动驾驶之前就已经得到了广泛应用。