博客

深入探索 Deep Java Library (DJL)
在深度学习领域，Python 一直占据着主导地位，拥有 TensorFlow 和 PyTorch 等强大的框架。然而，Java 作为企业级应用的支柱语言，也渴望在深度学习浪潮中占据一席之地。Deep Java Library (DJL) 应运而生，它致力于弥合 Java 生态系统与深度学习之间的鸿沟。

DJL：用 Java 语音构建深度学习应用的桥梁

DJL 是一个开源的深度学习框架，专为 Java 开发者设计。它提供了一套直观且易于使用的 API，用于构建、训练和部署深度学习模型。

DJL 的核心优势：
- 专为 Java 打造： DJL 允许开发者使用熟悉的 Java 语法和工具构建深度学习应用，无需切换语言或学习复杂的 Python 库。
- 引擎无关性： DJL 支持多种深度学习引擎，包括 TensorFlow、PyTorch、MXNet 和 OnnxRuntime。开发者可以自由选择最适合其需求的引擎，并轻松地在不同引擎之间切换。
- 模型库： DJL 提供了丰富的预训练模型库，涵盖图像分类、对象检测、自然语言处理等多个领域。开发者可以直接使用这些模型进行推理或微调，快速构建原型或部署应用。
- 高性能： DJL 针对性能进行了优化，可以充分利用多核 CPU 和 GPU 进行训练和推理。
DJL 的应用场景

DJL 适用于各种深度学习应用场景，包括：
- 图像识别： 使用预训练模型或自定义模型进行图像分类、对象检测等任务。
- 自然语言处理： 进行文本分类、情感分析、机器翻译等任务。
- 预测分析： 构建时间序列模型进行预测和异常检测。
- Java 应用集成： 将深度学习功能集成到现有的 Java 应用中，例如推荐系统、欺诈检测等。
DJL 实例：图像分类

以下代码示例展示了如何使用 DJL 和预训练的 ResNet-50 模型进行图像分类：
```
// 加载预训练的 ResNet-50 模型
Criteria<Image, Classifications> criteria = Criteria.builder()
        .setTypes(Image.class, Classifications.class)
        .optModelUrls("https://mlrepo.djl.ai/modelpaths/resnet50_v1/resnet50_v1_tf_cpu.zip")
        .build();
try (ZooModel<Image, Classifications> model = ModelZoo.loadModel(criteria);
     Predictor<Image, Classifications> predictor = model.newPredictor()) {

    // 加载待分类的图像
    Image img = ImageFactory.getInstance().fromUrl("https://djl.ai/images/kitten.jpg");

    // 执行推理
    Classifications classifications = predictor.predict(img);

    // 打印分类结果
    System.out.println(classifications);
}
```
总结：

DJL 为 Java 开发者打开了深度学习的大门，让他们能够利用现有的技能和工具构建强大的 AI 应用。随着 DJL 的不断发展和完善，我们可以预见 Java 在深度学习领域将会扮演越来越重要的角色。
2024 年 6 月 3 日
KerasCV 和 KerasNLP：赋予视觉和语言处理超能力
近年来，深度学习在计算机视觉（CV）和自然语言处理（NLP）领域取得了显著的进展。然而，构建和训练最先进的模型需要大量的计算资源和专业知识，这给许多研究人员和实践者带来了挑战。为了解决这些问题，谷歌的 Keras 团队推出了 KerasCV 和 KerasNLP，这是 Keras API 的扩展，旨在简化 CV 和 NLP 工作流程。

模块化设计：构建复杂模型的基石

KerasCV 和 KerasNLP 采用模块化、分层的设计方法，为用户提供了三种主要抽象级别：
1. 基础组件： 这些组件是构建和训练预处理管道、模型和评估逻辑的可组合模块。例如，KerasCV 提供了丰富的预处理层，可以轻松构建数据增强管道，提高模型的鲁棒性和泛化能力。
```
# 应用灰度预处理到输入
(images, labels), _ = keras.datasets.cifar10.load_data()
to_grayscale = keras_cv.layers.preprocessing.Grayscale()
augmented_images = to_grayscale(images)
```
1. 预训练主干： 用户可以使用预训练的模型主干进行微调，例如 ResNet、BERT 和 GPT2 等流行架构。这些主干模型通常在大型数据集上进行训练，可以为各种下游任务提供良好的起点。
2. 任务模型： 这些模型针对特定任务进行了预先配置，例如图像分类、对象检测、文本生成和问答。任务模型结合了较低 API 级别的预处理和建模模块，创建了一个统一的训练和推理接口，可以直接对原始文本或图像输入进行操作。
预设 API：快速构建最先进模型

预设 API 提供了一种创建最先进的 CV 和 NLP 模型的便捷方法。预设是已经在特定数据集上训练过的预配置模型，可用于特定任务。

例如，要使用预设 API 创建 RetinaNet 模型，只需导入 keras_cv.models 模块，然后在 RetinaNet 类上调用 from_preset() 方法：
```
# 从预设加载架构和权重
model = keras_cv.models.RetinaNet.from_preset(
    "resnet50_imagenet",
)
```
性能优势：多后端支持和 XLA 编译

KerasCV 和 KerasNLP 支持 JAX、TensorFlow 和 PyTorch 等多个后端，允许用户选择最适合其需求的框架。此外，它们还支持 XLA 编译，这可以显著提高模型的训练和推理速度。

Kaggle 模型：开放获取预训练模型

所有 KerasCV 和 KerasNLP 的预训练模型都发布在 Kaggle 模型平台上，并且可以在没有互联网连接的情况下使用。这为研究人员和实践者提供了便捷地访问和使用最先进模型的机会。

未来展望：多模态和模型服务

Keras 团队计划在未来扩展 KerasCV 和 KerasNLP 的功能，包括支持更广泛的多模态模型和优化与后端特定大型模型服务解决方案的集成。

结论：赋能 CV 和 NLP 创新

KerasCV 和 KerasNLP 为快速原型设计新模型提供了模块化组件，并为许多计算机视觉和自然语言处理工作流提供了标准的预训练主干和任务模型。它们可以被 JAX、TensorFlow 或 PyTorch 的用户利用。得益于后端可选性和 XLA 编译，KerasCV 和 KerasNLP 提供了最先进的训练和推理性能。

参考文献
- Chollet, F. et al. (2015). Keras. https://keras.io/
- Watson, M. et al. (2024). KerasNLP: Natural Language Processing with Keras.
- Wood, L. et al. (2024). KerasCV: Computer Vision with Keras.
- Abadi, M. et al. (2015). TensorFlow: Large-Scale Machine Learning on Heterogeneous Systems.
- Bradbury, J. et al. (2018). JAX: Autograd and XLA for High-Performance Machine Learning Research.
- Paszke, A. et al. (2019). PyTorch: An Imperative Style, High-Performance Deep Learning Library.
- Sabne, A. (2020). XLA: The TensorFlow Compiler.
- Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
- Jiang, Q. et al. (2023). Mistral 7B.
- Kirillov, A. et al. (2023). Segment Anything.
- Team, G. (2024). Gemma.
- Wolf, T. et al. (2020). Transformers: State-of-the-Art Natural Language Processing.
2024 年 6 月 3 日

博客

深入探索 Deep Java Library (DJL)

DJL：用 Java 语音构建深度学习应用的桥梁

DJL 的核心优势：

DJL 的应用场景

DJL 实例：图像分类

总结：

KerasCV 和 KerasNLP：赋予视觉和语言处理超能力

模块化设计：构建复杂模型的基石

预设 API：快速构建最先进模型

性能优势：多后端支持和 XLA 编译

Kaggle 模型：开放获取预训练模型

未来展望：多模态和模型服务

结论：赋能 CV 和 NLP 创新