AI 助理
备案 控制台
开发者社区 大数据与机器学习 文章 正文

人工智能项目开发的基本流程(二)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
推荐场景:
实时发现最热Github项目
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
推荐场景:
数据可视化分析航班信息
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
推荐场景:
搭建高质量商品搜索服务
简介: 人工智能项目开发的基本流程(二)

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):人工智能项目开发的基本流程(二)】

课程地址 https://edu.aliyun.com/course/3112108/lesson/19255


人工智能项目开发的基本流程(二)


三、数据准备


(一)人工智能项目数据准备

图片405.png


数据准备主要是指收集和预处理数据的过程,按照在需求分析中所确定的需求和目的,有目标性的收集、整合相关的数据,这一阶段主要包括以下三个步骤。

第一个步骤是数据采集,数据来源主要分为通用数据和行业数据两大类,在采集数据过程当中主要的原则为尽可能采集与真实业务场景一致的数据,并覆盖可能的所有情况,例如拍照角度、光线明暗的变化等。

第二个步骤是数据处理的部分,它的任务主要就是过滤掉不符合要求的一些数据,这些不符合要求的数据包括残缺数据、错误数据和重复数据三大类,残缺数据就是指我们拿到的数据是不完整的,比如说供应商的名称,客户的区域信息有一部分的缺失,错误的数据主要是指数据值是错误的、编码和格式也是错误的,对于重复的数据非常好理解,就是指在数据表当中存在相同的一些数据,数据质量实际上是保证数据应用的一个基础。所以在数据处理完之后需要从数据的完整性、一致性和准确性三个方面去评估数据是否达到预期设定的质量要求。第三个步骤是要进行数据标注,这样的过程主要是为了构建一个像人类一样的人工智能模型,需要大量的数据,这些数据必须是针对特定用例予以适当的分类和标注,数据的标注质量会直接影响网络性能的质量,因此数据标注在整个流程当中也是非常重要的一环。

在数据标注之前需要确定以下内容:

第一部分就是标注标准,确定好标注标准是保证数据质量非常关键的一步,它要保证有一个可以参考的标准。

一般可以有以下两种方式,一种是设置标注样例或者是模版,比如颜色的标准底色卡。

第二部分是对于模棱两可的数据设置统一的处理方式,比如统一器用或者是统一进行标注。接着需要对标注形式进行一定的确认,标注形式一般由算法人员制定的,比如说要定制一个能够识别问句的文本分类模型,我们就可以对句子进行零或一的标注,其中一代表了问号,零代表不是问号。

第三部分是标注工具的统一,标注的形式确定以后要对标注工具进行选择,可以选择一些公开的标注工具。


(二)拍立淘系统数据来源

图片406.png


拍立淘目前覆盖几乎淘宝所有的实体类目:比如衣服、家具、电子、零食、美妆、水果等,这背后的数据离不开淘宝成千上万的买家和卖家。

首先阿里集团内部有海量的商品类目和图片,包含各个商品的主图、SKU、副图、晒单图和详情图等,这一部分的图片涵盖了电商领域的各个方面。这些图片都是买家和卖家真实上传的,开发人员后续会对采集到的数据进行相对应的处理和标注。包括去除光线不好、模糊的数据以及部分格式不符合的数据,如gif 格式的数据;在数据标注这一块则是利用标注工具对相应的数据进行拉空标注主体以达到品类划分的目的。

 

四、模型训练


(一)人工智能项目模型训练

图片407.png


在数据准备完成后就需要去构建模型,并进行模型训练,它主要分为三个步骤。

第一步是对模型进行构建,接着是对模型的构建进行相对应的评估之后会对整个模型进行一定的优化,在模型构建的部分指的是基于主流的人工智能框架,例如TensorFlow、Caffe 、Keras 、PuTorch……去开发出业务所需要的模型。

算法模型构建是一个需要不断改进更新的循环过程,在模型构建当中往往伴随着硬件的升级新模型的设计思路甚至新业务的数据的加入。因此算法只有在不断改进才能更好的去符合我们的业务需求,开发者也可以选择在人工智能开发平台上直接选择平台物质的算法模型进行训练,例如阿里云的视觉智能开放平台、智能语音交互平台和NLP自学习平台……这些平台预示了很多关于图片文本、语音视频、结构化数据等方面的高精度模型,它可以支持开发者零门槛低成本的进行人工智能开发应用。

第二步是对训练得到了这份模型之后,整个开发过程实际上没有结束,为了获得一个满意的模型,需要反复的调整算法参数还有数据集等,不断的去评估训练所生成的模型,这里的模型指标有一些比较常用的,比如说准确率、精确率、召回率等都能够对整个模型的效果进行有效的评估。

第三步是对模型优化的过程实际上是对模型和数据进行迭代升级的过程,这里需要明确的是影响模型优化效果的因素有很多,从基础数据到构造的特征,再从整个算法的选择到实验策略的选择,都会影响到最后的结果。

在应用算法模型的整个过程当中,发生的每个动作或者做的每个修改都会影响模型的最终效果表达。因此算法工程一定要注意的是切勿只重视算法的本身和它的特征,在出现问题的时候要从全方位进行定位和解释。

 

五、模型应用


(一)人工智能项目模型应用

图片408.png


在我们得到一个满意的模型之后,甚至需要将它部署到真实的业务场景当中去,需要结合运行环境的因素进一步确定算法模型能否达到需求标准,这是整个人工智能开发当中最后一部分。

在整个模型部署当中它实际上需要考虑的因素还是有很多的。比如到底是部署在移动端还是部署在服务器端,部署的环境是选择CPU还是其他,以及内存要进行如何分配。

在完成模型部署之后还需要进行持续的效果跟踪,通常情况下新上的模型一般会进行测试,是否能够返回正常的数据,返回的数据是否可信,确定没有问题以后会进行一个小流量的测试观察一天内效果,如果效果纵向则会扩大流量。

经过一段时间的效果观察,如果效果都是正向的,才回去考虑全扩或者是扩充近百分之一百的流量,通过效果跟踪的前期工作,可以确定是否进行产品版本的迭代更新,验证版本迭代是否对产品规划产生效用。

最合理的途径就是进行数据分析对比,目前市场上已经有很多数据分析平台,而且大部分都是免费的,这些第三方平台已经能够满足我们的基本需求。我们也可以建立自己的平台,这样也能够通过多维度的数据分析进行产品决策。

以数据为导向能够更好的帮助产品经理确定当前的业务流程和产品优化方向。例如可以通过时段对比得知用户的习惯,就有利于运营活动建立。此外可以通过页面的访问频次,得知部分未知广告的转换率,产品的数据分析可以通过多条件组合进行,在必要的时候还可以根据需要整理的一些表格对数据进行更加密切的关注。


(二)拍立淘项目的落地效果

图片409.png


得益于算法、数据和计算能力的发展,以及大量用户的使用和验证,拍立淘的模型训练和测试部署及效果跟踪也得以进行。

目前淘宝在移动端部署的拍立淘功能解决了用户的大部分拍照搜索需求,但是距离充分满足用户的需求还是有一定的距离,整个拍立淘的项目也将会不断进行优化,从各个角度去全方位进行用户体验提升。

 

本章小结

最后回顾一下本章学习内容,本章当中了解:

1、人工智能的定义、人工智能的发展历史以及人工智能的三大学派,还有它的研究目的,以及在不同行业的主要应用。

2、人工智能产业的结构,这个产业结构从底层到最高层,也就是应用层,分别包含了基础层、技术层以及应用层包含,也学习到了不同层之间的主要内容。

3、人工智能项目开发的基本流程,这里的基本流程就是从需求分析开始到根据这个需求分析去进行一定的数据准备,然后再根据业务场景进行模型训练,最后将模型进行应用在知识的业务场景落地。

阿里云社区
目录
相关文章
洛神灬殇
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(NLP自然语言处理概念介绍)
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(NLP自然语言处理概念介绍)
洛神灬殇
103 0
洛神灬殇
|
5月前
|
机器学习/深度学习 人工智能 运维
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)(二)
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)
洛神灬殇
277 1
洛神灬殇
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)(一)
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)
洛神灬殇
331 1
洛神灬殇
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(LLM、AGI和AIGC都是什么)(一)
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(LLM、AGI和AIGC都是什么)
洛神灬殇
377 0
程序员小侯
|
11月前
|
人工智能 Cloud Native 大数据
构建高性能云原生大数据处理平台:融合人工智能优化数据分析流程
构建高性能云原生大数据处理平台:融合人工智能优化数据分析流程
程序员小侯
430 0
TesterMuller
|
5月前
|
机器学习/深度学习 数据采集 人工智能
人工智能,应该如何测试?(四)模型全生命周期流程与测试图
本文补充了完整的业务和测试流程,包括生命周期流程图,强调测试人员在模型测试中的角色。主要测试活动有:1) 离线模型测试,使用训练集、验证集和测试集评估模型;2) 线上线下一致性测试,确保特征工程的一致性;3) A/B Test,逐步替换新旧模型以观察效果;4) 线上模型监控,实时跟踪用户行为变化;5) 数据质量测试,验证新数据质量以防影响模型效果。
TesterMuller
110 0
洛神灬殇
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(LLM、AGI和AIGC都是什么)(二)
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(LLM、AGI和AIGC都是什么)
洛神灬殇
275 0
洛神灬殇
|
5月前
|
机器学习/深度学习 存储 人工智能
奔向AGI+发展AIGC |【人工智能技术专题】「入门到精通系列教程」零基础带你掌握人工智能全流程技术体系和实战指南(人工智能理论知识概论)
奔向AGI+发展AIGC |【人工智能技术专题】「入门到精通系列教程」零基础带你掌握人工智能全流程技术体系和实战指南(人工智能理论知识概论)
洛神灬殇
197 0
菊头蝙蝠
|
5月前
|
人工智能 Shell 开发工具
全球人工智能技术创新大赛【热身赛一】布匹疵点智能识别:比赛全流程体验(baseline训练+Docker提交)
全球人工智能技术创新大赛【热身赛一】布匹疵点智能识别:比赛全流程体验(baseline训练+Docker提交)
菊头蝙蝠
238 1
aliyun1160684647-37161
|
8天前
|
人工智能 算法 安全
探索人工智能在医疗诊断中的应用及挑战
本文深入探讨了人工智能在医疗诊断领域的现状、应用及其面临的伦理和技术挑战。通过分析AI技术如何辅助医生进行疾病诊断,提高诊断的准确性和效率,文章揭示了AI在医疗影像分析、基因检测、风险评估等方面的潜力。同时,指出了数据隐私、算法透明度、医患关系变化等挑战,并对未来AI与医疗健康的融合趋势进行了展望。
aliyun1160684647-37161
39 1

大数据与机器学习

热门文章

最新文章

  • 1
    阿里云开源离线同步工具DataX3.0介绍
  • 2
    DataV首次实战分享:教你30分钟创建汽车大屏
  • 3
    【玩转数据系列九】机器学习为您解密雾霾形成原因
  • 4
    阿里封神谈hadoop生态学习之路
  • 5
    【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类
  • 6
    每个人都应该知道的25个大数据术语
  • 7
    你刚吃的兰州牛肉面,背后就藏着大数据
  • 8
    盘古:阿里云飞天分布式存储系统设计深度解析
  • 9
    《全球象牙贸易黑幕揭秘》-DataV数据可视化入门教程
  • 10
    odps是什么?
  • 1
    【10月更文挑战第7天】「Mac上学Python 14」基础篇8 - 运算符详解
    8
  • 2
    如何利用商品详情数据挖掘消费者的潜在需求?
    3
  • 3
    淘宝天猫商品评论数据接口 —— 电商决策的宝贵资源
    3
  • 4
    代购系统在面对供应链风险时,有哪些应对策略?
    7
  • 5
    基于Kronig-Penney能带模型的MATLAB求解与仿真
    5
  • 6
    淘宝商品详情数据接口:解锁电商数据分析新密码
    9
  • 7
    Pandas中批量转换object至float的高效方法
    6
  • 8
    Set、Map、WeakSet 和 WeakMap 的区别
    5
  • 9
    阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse
    100
  • 10
    超越传统模型:探讨门控循环单元(GRU)在语音识别领域的最新进展与挑战
    9
  • 相关课程

    更多
  • 阿里云人工智能工程师ACA认证免费课程(2023版)
  • 人工智能训练师-智能客服课程
  • 人工智能安全
  • 高校精品课-华东师范大学-人工智能基础
  • 人工智能入门
  • 天池人工智能基础课程
  • 相关电子书

    更多
  • 【云栖精选6月刊】当AI来敲门,一刊尽览人工智能
  • 人工智能的商业化落地
  • 人工智能的投资机会
  • 相关实验场景

    更多
  • SAE 极速部署专属 AI 证件照神器
  • 流水线运行出错排查难?AI帮你智能排查
  • 以电商场景为例搭建AI语义搜索应用
  • 奥运时刻!零代码生成奥运风格AI写真。
  • 【AI破次元壁合照】少年白马醉春风,函数计算一键部署AI绘画平台
  • 基于Higress构建AIGC ChatBot
  • 下一篇
    阿里云无影AI云电脑亮相 体验大幅升级

    深圳坪山网站建设公司服务好的seo网站优化重庆网站优化一站式服务已解决亳州网站优化排名哪家质量好恩施外包网站优化多少钱江西万词网站优化长宁区公司官方网站优化案例网站的优化分析内江网站优化排名公司怎样对网站进行SEO优化黄石本地网站优化要多少钱横沥服装网站优化哪个比较好北京出名的服装行业网站优化宁德市网站seo优化费用拉萨网站优化公司 鹊起科技seo优化网站难点在哪里本溪网站优化关键词辉县网站如何做优化台州网站优化设计西安免费网站优化多少钱家用电器网站优化咨询杭州手机网站优化深圳木工机械网站seo优化网站诊断与优化深圳网站优化公司天津怎么做网站优化兰州优化网站排名网站整体优化流程阿里巴巴需要做网站优化吗贵阳专业的seo网站排名优化定海区网站优化外包香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

    深圳坪山网站建设公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化