评估预部署AI模型的可靠性

基础模型是由众多深度学习模型构成的,这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务,例如生成图像或解答客户咨询。...

基础模型是由众多深度学习模型构成的,这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务,例如生成图像或解答客户咨询。

然而,作为ChatGPT和DALL-E等强大人工智能工具的核心,这些模型有时可能会提供错误或误导性的信息。在一些安全至关重要的场景中,比如行人接近自动驾驶汽车时,这些错误可能会导致严重后果。

为了避免此类错误,麻省理工学院及其IBM沃森人工智能实验室的研究人员开发了一种技术,能够在将基础模型应用于特定任务之前评估其可靠性。

他们通过训练一组略有不同的基础模型来实现这一目标。接着,他们利用算法评估每个模型在相同测试数据点上的学习表示的一致性。如果表示一致,便意味着该模型是可靠的。

在与最先进的基线方法进行比较时,他们的技术在捕捉各种分类任务中基础模型的可靠性方面表现更佳。

这种技术可以帮助用户判断一个模型是否适合特定环境,而无需在现实世界的数据集上进行测试。这在某些情况下尤其有用,例如医疗保健环境中,由于隐私问题可能无法访问数据集。此外,该技术还可以根据可靠性分数对模型进行排序,帮助用户选择最适合其任务的模型。

“所有模型都有可能出错,但能够识别出何时出错的模型更具实用性。对于这些基础模型而言,量化不确定性或可靠性变得更加复杂,因为它们的抽象表示难以进行比较。我们的方法可以帮助量化模型在特定输入数据下的可靠性,”资深作者Navid Azizan表示,他是麻省理工学院机械工程系和数据、系统与社会研究所(IDSS)的助理教授,同时也是信息与决策系统实验室(LIDS)的成员。

他与第一作者Young-Jin Park(LIDS研究生)共同撰写了关于这项工作的论文,参与者还包括麻省理工学院-IBM沃森人工智能实验室的研究科学家王浩,以及Netflix的高级研究科学家谢尔文·阿德希尔。该论文将于人工智能不确定性会议上发表。

统计共识

传统的机器学习模型通常被训练来执行特定任务,通常会根据输入做出具体预测。例如,模型可能会判断某张图片中是猫还是狗。在这种情况下,评估可靠性可能仅需查看最终预测结果,判断模型是否正确。

然而,基础模型的工作方式有所不同。它们使用通用数据进行预训练,创建者并不清楚模型将应用于哪些具体下游任务。用户在训练完成后可以让模型适应自己的特定需求。

与传统机器学习模型不同,基础模型不会给出“猫”或“狗”这样的具体标签,而是基于输入数据生成抽象表示。

为了评估基础模型的可靠性,研究人员采用了一种集成方法,训练多个具有相似特征但略有不同的模型。

“我们的思路类似于计算共识。如果所有基础模型对数据集中的任何数据都给出一致的表示,那么我们可以认为该模型是可靠的,”Park表示。

但他们面临一个挑战:如何比较这些抽象表示?

他补充道:“这些模型输出的是一个由数字组成的向量,因此我们无法轻易比较它们。”

他们通过一种称为邻域一致性的概念来解决这个问题。

在他们的方法中,研究人员准备了一组可靠的参考点来测试模型集合。然后,他们对每个模型在其表示的测试点附近的参考点进行调查。

通过观察相邻点的一致性,他们能够估计模型的可靠性。

对齐表示

基础模型在所谓的表示空间中映射数据点。我们可以将这个空间视为一个球体。每个模型将相似的数据点映射到其球体的同一区域,因此猫的图像会集中在一个地方,而狗的图像则在另一个地方。

然而,每个模型在其领域内绘制的动物地图可能不同,因此当猫可能被分组在一个球体的南极时,另一个模型可能在北半球的某个位置绘制猫的地图。

研究人员使用邻近点作为锚来对齐这些球体,从而使表示具有可比性。如果一个数据点的邻居在多个表示中一致,那么我们可以对该点的模型输出的可靠性充满信心。

在对广泛的分类任务进行测试时,他们发现这种方法比基线方法更具一致性。此外,它不会因为挑战测试点而导致其他方法失效。

此外,他们的方法可以用于评估任何输入数据的可靠性,因此可以评估模型对特定类型个体(例如具有某些特征的患者)的效果。

王表示:“即使所有模型的整体性能处于平均水平,从个体的角度来看,你也会更倾向于选择最适合自己的模型。”

然而,一个限制在于他们必须训练一个大型基础模型的集合,这在计算上是昂贵的。未来,他们计划寻找更高效的方法来构建多个模型,或许可以通过对单个模型进行小扰动来实现。

本文来自作者[svs]投稿,不代表立场,如若转载,请注明出处:http://pizzeria-subito.net/post/5398.html

(268)

文章推荐

  • 梅长苏和静妃是什么关系?

      梅长苏和静妃是《琅琊榜》中的两个重要角色,他们之间的关系备受观众关注。在剧情中,梅长苏是一个谜一般的人物,他以智谋和计谋帮助李显登上皇位,同时也与静妃有着一段曲折的情感纠葛。那么,梅长苏和静妃到底是什么关系呢?  梅长苏和静妃的关系(图片来源网络,侵删)  梅长苏和静妃之间的关系可以说是

    2024年09月11日
    855
  • 什么的乔丹:探寻传奇篮球巨星的故事

      什么的乔丹:探寻乔丹品牌的魅力  在篮球史上,乔丹这个名字无疑是一个传奇。无数人将他视为篮球之神,他的影响力不仅仅局限于球场,更是延伸到了时尚、商业等领域。那么,什么样的乔丹才能拥有如此巨大的影响力呢?本文将从不同角度探寻乔丹品牌的魅力所在。(图片来源网络,侵删)  乔丹品牌的历史 

    2024年09月12日
    829
  • 约翰·f·肯尼迪最后一张圣诞贺卡的感人故事

      1963年11月,约翰·F·肯尼迪与妻子杰奎琳·肯尼迪为当年的圣诞贺卡进行了精心挑选。根据《史密森尼杂志》的报道,这张贺卡是定制设计,尺寸为4.5英寸乘6.5英寸,正面印有一张那不勒斯基督诞生塑像的彩色照片,这张照片一直保存在白宫东厅。贺卡内有一只美国鹰的印章。然而,历

    2024年11月24日
    248
  • 莫兰蒂国会议员莫哈末·纳苏苏丁正式就任吉兰丹新部长

      哥打巴鲁,8月15日——莫兰蒂的国会议员拿督莫哈末·纳苏苏丁今日宣誓成为吉兰丹州的第九任州务大臣。  58岁的莫哈末·纳苏苏丁在吉兰丹苏丹穆罕默德五世的见证下完成了宣誓仪式。同时,拿督MohamedFadzliHassan也宣誓就任吉兰丹州副部长。  此次任命结束了关于吉兰丹州务大臣

    2024年11月29日
    279
  • 马来西亚音乐界全力呼吁对英国乐队The 1975的不当行为采取严厉措施

      吉隆坡,7月22日——由15个马来西亚音乐行业协会组成的音乐协会联合会(MusicMalaysia)全力支持政府对英国乐队The1975在昨晚GoodVibesFestival2023(GVF2023)上不当行为采取的严厉措施。  马来西亚音乐协会主席拿督弗雷迪·费尔南德斯表示,

    2024年12月02日
    219
  • 雇主倾向于为员工提供健康保险补贴的福利新动向

      戴夫·兰茨(DaveLantz)对急诊医疗和医生账单并不陌生。他提到,家中有三个十几岁和二十出头的孩子,“当有人生病或手臂骨折时,医药费瞬间就可能高达数千美元。”在宾夕法尼亚州中部的莱康明学院(LycomingCollege)担任物理系主任助理期间,兰茨曾享有家庭健康保险,但直到

    2024年12月04日
    197
  • 2024年NFL选秀成绩:达拉斯牛仔队在左截锋和前七名球员上摇摆不定

      达拉斯牛仔队总成绩:C+这份草案符合大多数人的预期。牛仔队在首轮选中了一个有潜力的泰伦·史密斯接班人,增强了前场七人的实力,并在进攻线上增加了深度。虽然这次选秀可能不会立即为牛仔队带来显著的回报,但他们在未来的首发球员上做出了几次明智的选择。杰

    2024年12月07日
    219
  • OneDrive将推出一款新的移动应用,更好的搜索功能,以及文件资源管理器中的彩色文件夹

      微软的oneDrive云存储服务将在未来几周内获得改进的搜索体验,新的移动应用程序,文件资源管理器中的彩色文件夹,以及更多的功能。从今天开始,微软的所有商业客户都可以使用oneDrive中的Copilot。OneDrive产品副总裁詹森•摩尔表示:“我们改进的

    2024年12月10日
    194
  • Facebook, YouTube, WhatsApp surveillance,货币化用户数据:FTC |企业家

      2020年12月,美国联邦贸易委员会要求全球最大的社交媒体和流媒体企业,包括Twitch的母公司亚马逊、Facebook(现称Meta)、YouTube、Reddit、WhatsApp、Twitter(现称X)、Snap、Discord以及TikTok的母公司字节跳动,公开

    2024年12月12日
    149
  • 与gisbh有关联的男子被控威胁证人撤回警方针对该组织的报告

      普特拉贾亚,9月18日——全球伊赫万服务和商业控股公司(GISBH)的一名成员穆罕默德·里扎·马卡尔因涉嫌威胁某人撤回对该公司的警方报告而被提起公诉。这名39岁的被告在治安法官AhmadAfiqHasan面前被控违反刑事法典第506条,他在治安法院表示不

    2024年12月18日
    136

发表回复

本站作者后才能评论

评论列表(4条)

  • svs
    svs 2024年12月01日

    我是的签约作者“svs”!

  • svs
    svs 2024年12月01日

    希望本篇文章《评估预部署AI模型的可靠性》能对你有所帮助!

  • svs
    svs 2024年12月01日

    本站[]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • svs
    svs 2024年12月01日

    本文概览:基础模型是由众多深度学习模型构成的,这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务,例如生成图像或解答客户咨询。...

    联系我们

    邮件:@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们