标签: AGI

  • 免费获取知识的宝库:22个美国免费教科书网站推荐

    在美国,高中和大学的教科书费用是一笔不小的开销。为了减轻大家的经济负担,本文整理了22个提供免费高中及大学教科书的网站,希望能够帮助到有需要的学生和家长。

    1. 资源丰富的综合类网站

    • Open Textbook Library: 由 Center for Open Education 和 Open Textbook Network 共同创建,提供商业、工程、法律等14个领域的教科书,所有书籍都经过大学老师审查,并提供 PDF 和 EPUB 格式下载。 (https://open.umn.edu/opentextbooks/)
    • OpenStax: 由莱斯大学创建,提供高中和大学的免费教科书,采用 CC-BY 授权方式,允许用户修改和传播内容。 (https://openstax.org/subjects)
    • LibreTexts: 由美国国家科学基金会赞助,提供化学、生物学等12个领域的书籍、作业题目、案例研究等资源,并支持用户协作修正错误。(https://libretexts.org/index.html)
    • California Open Online Library for Education (COOL4Ed): 由加州三大高等教育系统组成,提供免费电子教科书和在线课程,涵盖人文艺术、科学技术等多个领域。(https://www.cool4ed.org/)
    • Open Culture: 提供由知名学者编写的免费电子教科书,以及超过1300个顶尖大学的免费在线课程。(https://www.openculture.com/free_textbooks)
    • Open SUNY Textbooks: 由纽约州立大学图书馆创建,提供超过200本涵盖多个领域的免费教科书。(https://textbooks.opensuny.org/browse-by-subject/)
    • 2012 Book Project: 收集整理了一个出版商发布的免费教科书,以入门级大学用书为主,涵盖经济、政治、法律等多个领域。(https://2012books.lardbucket.org/)
    • College Open Textbooks: 由卡内基梅隆大学与多个教育机构共同创建,提供工程、电子、健康等24个领域的700多本开放式教科书,并标明授权方式。(https://collegeopentextbooks.org/)
    • DOAB (Directory of open access books): 收录超过一万本开放获取的书籍,并与众多出版商合作。(https://www.doabooks.org/)

    2. 特色鲜明的专业类网站

    • Intech: 与全球9万多名科学家合作,提供工程、科技、物理等领域的教科书和期刊,拥有约2500本开放式教科书。(https://www.intechopen.com/books/)
    • NOBA: 提供心理学领域的专业教科书,旨在减轻学生负担,并为教师提供交流平台。(https://nobaproject.com/)
    • O’Really: 知名计算机信息书籍出版社,提供部分绝版或重要书籍的免费 PDF 下载,涵盖程序编写、网络管理等内容。(https://www.oreilly.com/openbook/)
    • Project Gutenberg: 收藏超过著作权年限的书籍,目前已有超过56000本藏书,提供多种下载格式。(https://www.gutenberg.org/)
    • Textbook Revolution: 致力于收集高质量的免费教科书,帮助教师和学生减轻经济压力,提供按领域、主题或授权方式搜索的功能。(http://textbookrevolution.org/index.php/Book:Lists/Subjects)
    • The Global Text Project: 由乔治亚大学和丹佛大学共同创建,提供自行开发的全球商业和教育类教科书。(http://globaltext.terry.uga.edu/)

    3. 用户共建的开放平台

    4. 方便实用的导航网站

    希望以上整理的网站能够帮助大家找到需要的免费教科书,减轻学习成本,更轻松地获取知识!

    参考文献

    [1] 22个免费美国教科书网站 包括高中及大学 – 美国实用资讯 (https://www.chineselikela.com/huaren/usa-study/35865/)

  • AI数据就绪度检测器AIDRIN:人工智能数据就绪度的定量评估

    人工智能(AI)的发展正在各个领域蓬勃兴起,但”垃圾进,垃圾出”这一计算机科学界的普遍共识同样适用于AI领域。数据质量直接影响AI模型的性能,低质量、有偏见的数据往往会导致AI模型效果不佳。因此,数据科学家在AI应用中投入了大量时间和精力来准备数据。然而,目前还没有标准的方法或框架来评估数据对AI的”就绪度”。为了解决这一问题,研究人员提出了AIDRIN(AI Data Readiness INspector)框架,旨在对数据的AI就绪度进行定量评估。

    AIDRIN框架概述

    AIDRIN是一个综合性的数据评估工具包,涵盖了文献中提到的广泛就绪度维度,有助于定量和定性地评估数据就绪度。它不仅使用传统数据质量评估中的指标(如完整性、异常值和重复项),还使用专门用于评估AI数据的指标,如特征重要性、特征相关性、类别不平衡、公平性、隐私性和FAIR(可查找性、可访问性、互操作性和可重用性)原则合规性。AIDRIN提供可视化和报告,以帮助数据科学家进一步调查数据的就绪情况,从而提高机器学习管道的效率,为AI应用的数据就绪性做出明智决策。

    AIDRIN的主要特点

    1. 综合评估:AIDRIN整合了传统数据质量参数和AI特定指标,提供全面的数据就绪度评估。
    2. 用户友好:提供简便的数据和元数据上传功能,简化了数据从业者和研究人员的评估过程。
    3. 定量评分:基于广泛的指标列表,涵盖多个数据就绪度考虑因素,提供量化评分机制。
    4. 可视化报告:生成直观的可视化和报告,帮助用户深入分析数据就绪情况。
    5. 跨领域适用:适用于各种领域的用户,可轻松高效地衡量数据集对AI应用的适用性。

    AIDRIN的数据就绪度评估维度

    AIDRIN框架提出了七大类别的AI数据就绪度评估:

    1. 质量
    • 完整性:衡量所需数据的存在程度
    • 异常值:识别偏离正常范围的异常数据点
    • 重复性:评估重复记录的存在
    • 数据准备实践:评估数据准备方法的稳健性
    • 时效性:确保数据是最新和相关的
    1. 可理解性
    • 元数据可用性和质量:确保存在全面的元数据来描述数据集
    • 来源:追踪数据的来源和谱系,确保准确性和完整性
    • 数据访问用户界面:评估访问和交互数据的便利性
    1. 结构质量
    • 使用的数据类型:评估数据类型的适当性和一致性
    • 数据模式质量:评估支持规范化形式和快速数据存储访问的数据模式设计和结构
    • 文件格式和使用的数据存储系统:审查文件格式和存储系统的效率和适用性
    • 数据访问性能:衡量数据检索的速度和可靠性
    1. 价值
    • 特征重要性:评估数据集中不同特征的重要性
    • 标签:检查监督学习标签的可用性、质量和正确性
    • 数据点影响:评估单个数据点对整个数据集的影响
    • 数据不确定性:使用不确定性量化方法衡量数据的不确定性或置信度
    1. 公平性和偏见
    • 类别不平衡:评估数据集中类别的分布
    • 类别可分性:衡量不同类别之间的区分程度
    • 歧视指数:识别数据中的潜在偏见
    • 群体代表性:确保对人群进行多样化和有代表性的抽样
    1. 治理
    • 收集:审查同意、抽样方法、伦理考虑、监管合规性和资金来源
    • 处理和管理:评估使用的匿名化、管理和去识别方法
    • 应用:评估使用限制和数据分析中的潜在偏见
    • 安全:审查数据敏感性、访问控制机制和共享协议
    • 隐私:评估隐私要求、预算和得分
    1. AI应用特定指标
    • 模型特定指标:评估特定于AI模型及其预期应用的指标,确保数据满足成功模型训练和部署的要求

    AIDRIN的分析能力

    AIDRIN提供三类检查结果:

    1. 数据摘要统计:提供数据的一般信息,如属性数量、数据记录数量、百分位数、最小值、最大值、平均值、标准差和分布等统计信息。
    2. 数据就绪度指标:提供多种AI就绪度指标,如完整性、异常值、重复性、特征重要性、特征相关性等。
    3. 可视化:为每个指标提供相应的图表和可视化,便于理解和分析。

    以下是AIDRIN中一些关键指标的详细说明:

    完整性

    完整性表示数据集中必要数据和属性值的存在程度。AIDRIN使用Blake等人提出的完整性指标,通过测量数据集每个特征中缺失值的比例来量化完整性。

    异常值

    异常值指显著偏离数据集中预期值的数据点或实例。AIDRIN采用四分位距(IQR)方法来评估异常值,这种方法对极端值的影响较小,更可靠且易于解释。IQR方法基于数据的中间50%,计算第一四分位数(Q1)和第三四分位数(Q3)之间的范围。超出这个范围的数据点被识别为异常值。

    重复项

    重复项指数据集中存在的重复或冗余实例。AIDRIN使用Bors等人提出的评分系统来检测重复条目,通过比较唯一项目数与总项目数来生成表示数据集重复程度的单一分数。

    隐私

    AIDRIN采用Vatsalan等人提出的”MM风险评分”模型来评估数据隐私风险。这种方法考虑了数据的敏感性和数据中可识别信息的数量,为数据集分配一个隐私风险分数。

    公平性

    AIDRIN使用几种指标来评估数据集的公平性:

    1. 统计平等:评估不同敏感群体之间预测结果的一致性。
    2. 机会平等:比较不同群体中真阳性率的差异。
    3. 人口代表性:评估数据集中各群体的代表性是否与整体人口分布相符。
    4. 群体公平性:评估模型对不同群体的预测准确率是否一致。

    FAIR原则合规性

    AIDRIN评估数据集对FAIR(可查找性、可访问性、互操作性和可重用性)原则的遵守程度:

    1. 可查找性:评估数据集是否易于发现和定位。
    2. 可访问性:评估获取数据的难易程度。
    3. 互操作性:评估数据与其他数据集和系统的兼容性。
    4. 可重用性:评估数据是否可以被其他研究者重复使用。

    特征相关性

    AIDRIN使用相关系数来衡量特征之间的线性关系强度。它可以识别高度相关的特征,这些特征可能会引入多重共线性问题。

    特征重要性

    AIDRIN采用基于树的特征重要性方法,如随机森林,来评估每个特征对预测目标变量的贡献程度。这有助于识别最具预测力的特征。

    类别不平衡

    对于分类问题,AIDRIN计算类别不平衡率,即最大类别样本数与最小类别样本数的比率。高不平衡率可能导致模型偏向主导类别。

    AIDRIN的优势

    1. 全面性:AIDRIN涵盖了广泛的数据就绪度维度,提供了全面的评估框架。
    2. 定量评估:通过量化指标,AIDRIN使数据就绪度评估更加客观和可比较。
    3. 可视化支持:生成直观的图表和报告,帮助用户快速理解数据状况。
    4. 跨域应用:适用于各种领域的AI数据准备工作。
    5. 标准化:为AI数据就绪度评估提供了一个标准化的框架。
    6. 效率提升:通过自动化评估过程,大大提高了数据准备的效率。
    7. 决策支持:为数据科学家和研究人员提供了明确的指导,帮助他们做出关于数据使用的明智决策。

    结论

    AIDRIN框架的提出填补了AI数据就绪度评估领域的空白,为数据科学家和研究人员提供了一个强大的工具。通过综合评估数据质量、公平性、隐私性等多个维度,AIDRIN能够帮助用户更好地理解和改进他们的数据集,从而提高AI模型的性能和可靠性。随着AI技术的不断发展,AIDRIN这样的框架将在确保AI系统的数据基础方面发挥越来越重要的作用。

    参考文献

    1. Hiniduma, K., Byna, S., Bez, J. L., & Madduri, R. (2024). AI Data Readiness Inspector (AIDRIN) for Quantitative Assessment of Data Readiness for AI. arXiv:2406.19256.
    2. Blake, R., & Mangiameli, P. (2011). The effects and interactions of data quality and problem complexity on classification. Journal of Data and Information Quality, 2(2), 1-28.
    3. Bors, C., Wentker, T., Böhm, C., & Heindorf, S. (2021). A Novel Measure for Data Quality: Duplicate Detection. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 3078-3084.
    4. Vatsalan, D., Sehili, Z., Christen, P., & Rahm, E. (2017). Privacy-preserving record linkage for big data: Current approaches and research challenges. In Handbook of Big Data Technologies (pp. 851-895). Springer, Cham.
人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 2370 | UV: 1255
Last updated: 2025-06-27 05:01:22
沪ICP备2024052574号-1