NOTEBOOK

Tensorflow on Aarch64

1-环境搭建

测试tensorflow中的models需要安装 tensorflow、tensorflow-text、tf-models-official，为了方便管理python环境，所有的操作都在venv中进行。

venv

python虚拟环境的基本使用方法如下：

//创建
python -m venv /home/tf-test/venv00
//激活
source /home/tf-test/venv00/bin/activate
//退出
deactivate

激活后，出现如下图红圈所示，即为进入python虚拟环境，然后就可以开始操作了。

1720168211338

tensorflow

github：https://github.com/tensorflow/tensorflow
version：2.15.0
method：pip install tensorflow==2.15.0

tensorflow是pypi中的一个包，可以直接通过 pip install tensorflow==2.15.0来安装。

tensorflow-text

github：https://github.com/tensorflow/text
version：2.15.0
method：build from source

step1-bazel 6.1.0

编译tensorflow-text 2.15.0需要bazel 6.1.0。

//从github下载bazel 6.1.0的release
wget https://github.com/bazelbuild/bazel/releases/download/6.1.0/bazel-6.1.0-linux-arm64
//修改权限
chmod +x bazel-6.1.0-linux-arm64
//修改名字
mv bazel-6.1.0-linux-arm64 bazel
//初始化
./bazel
//将bazel可执行文件的路径添加到PATH环境变量中
export PATH="$PATH:PathToBazel"

运行 bazel --version命令查看是否安装并配置成功。

1720170318183

step2-text 2.15.0

tensorflow-text的github仓库有从源码构建的步骤，具体如下：

//从github下载text源码
git clone https://github.com/tensorflow/text
cd text
//切换到2.15分支
git checkout 2.15
//运行脚本，构建wheel
./oss_scripts/run_build.sh
//安装text 2.15.0
pip install tensorflow_text-2.15.0-cp311-cp311-linux_aarch64.whl

tensorflow-models

github：https://github.com/tensorflow/models
version：2.15.0
method：pip install tf-models-official==2.15.0

tensorflow-models是pypi中的一个包，可以直接通过 pip install tf-models-official==2.15.0来安装。

环境检查

通过 pip show tensorflow tensorflow-text tf-models-official命令检查环境是否搭建完毕。

1720167945517

2-问题解决

tf、tf-text、tf-models的版本选择

为了三者适配，版本号必须统一。

在pypi中，结合tf-models和tf支持的release版本号，最新的即为2.15.0；tf-text只有x86-64架构的wheel，所以只能从源码构建。

bazel的版本选择

从源码构建tf-text需要bazel，且两者版本号需要适配。

在text/oss_scripts/configure.sh文件中搜索bazelversion可以定位到获取bazel版本号的代码块，如下图，访问链接即可得到具体的版本号6.1.0。

1720174819503

通过 dnf install bazel的方法只能得到5.3.0版本的bazel，在bazel的github仓库里有6.1.0版本的可执行文件，下载并配置环境变量即可。

h5py的构建问题

在 pip install tensorflow==2.15.0时可能会遇到如下图所示error。

1720175300628

查阅h5py手册，发现需要安装hdf5作为依赖。

1720175496173

解决方法如下：

dnf install python3-devel hdf5-devel.aarch64

3-用例运行

examples

github：https://github.com/tensorflow/examples

该仓库在tensorflow_examples/models/路径下有dcgan、densenet、nmt_with_attention和pix2pix共四个模型，下面分别进行测试。

首先克隆仓库并设置环境变量 PYTHONPATH，如下：

//克隆仓库
git clone https://github.com/tensorflow/examples
//把examples仓库添加到PYTHONPATH环境变量中
export PYTHONPATH="$PYTHONPATH:/home/tf-test/file/examples"

dcgan

dcgan有train和eval的文件，这里进行train。

python dcgan.py

1720237121039

densenet

densenet有train和eval的文件，这里进行train。

python train.py

1720237167534

nmt_with_attention

nmt_with_attention有train和eval的文件，这里进行train。

python train.py

1720237227675

pix2pix

pix2pix有train和eval的文件，这里进行train。

下载数据集facades到tensorflow_examples/models/pix2pix/路径下，并解压facades.tar。

python pix2pix.py -path /home/tf-test/file/examples/tensorflow_examples/models/pix2pix/facades/

1720237381080

models

github:https://github.com/tensorflow/models

本次主要测试了该仓库下recommendation、nlp、vision和projects中的模型，首先克隆仓库并设置环境变量：

//克隆仓库
git clone https://github.com/tensorflow/models
//把models仓库添加到PYTHONPATH环境变量中
export PYTHONPATH="$PYTHONPATH:/home/tf-test/file/models"

recommendation

recommendation中的模型在路径models/official/recommendation下。

NCF

NCF在GitHub上有下载并预处理数据集和训练与评估模型的步骤，具体如下，工作路径为models/official/recommendation/：

//下载并预处理数据集，这里选择ml-1m数据集
python movielens.py --data_dir /home/tf-test/models/dataset/ncf --dataset ml-1m
//训练与评估模型
python ncf_keras_main.py --model_dir /home/tf-test/models/model_dir/ncf --data_dir /home/tf-test/models/dataset/ncf/ --dataset ml-1m --num_gpus 0

1720249874516

DCN v2

DCN v2在GitHub上有使用合成数据进行训练的步骤，具体如下：

python3 models/official/recommendation/ranking/train.py --mode=eval \
--model_dir=/home/tf-test/models/model_dir/dcn_v2 --params_override="
runtime:
    distribution_strategy: 'one_device'
task:
    use_synthetic_data: true
    model:
        num_dense_features: 13
        bottom_mlp: [512,256,2]
        embedding_dim: 2
        top_mlp: [1024,1024,512,256,1]
        interaction: 'cross'
        vocab_sizes: [39884406, 39043, 17289, 7420, 20263, 3, 7120, 1543, 63,
            38532951, 2953546, 403346, 10, 2208, 11938, 155, 4, 976, 14,
            39979771, 25641295, 39664984, 585935, 12972, 108, 36]
trainer:
    validation_steps: 2
"

1720405253457

DLRM

DLRM在GitHub上有使用合成数据进行训练的步骤，具体如下：

python3 models/official/recommendation/ranking/train.py --mode=eval \
--model_dir=/home/tf-test/models/model_dir/dlrm --params_override="
runtime:
    distribution_strategy: 'one_device'
task:
    use_synthetic_data: true
    model:
        num_dense_features: 13
        bottom_mlp: [512,256,2]
        embedding_dim: 2
        top_mlp: [1024,1024,512,256,1]
        interaction: 'dot'
        vocab_sizes: [39884406, 39043, 17289, 7420, 20263, 3, 7120, 1543, 63,
            38532951, 2953546, 403346, 10, 2208, 11938, 155, 4, 976, 14,
            39979771, 25641295, 39664984, 585935, 12972, 108, 36]
trainer:
    validation_steps: 2
"

1720405316275

nlp

nlp中的模型在路径models/official/nlp/下运行。

Transformer

Transformer在GitHub上有说明文档，具体如下：

python train.py --experiment wmt_transformer/large  --mode eval --model_dir /home/tf-test/models/model_dir/transformer --params_override task.sentencepiece_model_path='gs://tf_model_garden/nlp/transformer_wmt/ende_bpe_32k.model'

1720254373997

vision

vision中的模型在路径models/official/vision/下运行。

在运行models之前，需要下载并预处理ILSVRC2012和coco2017数据集，具体操作点击这里。最终把包含 train*和 val*的ILSVRC2012数据集文件夹重命名为 imagenet-2012-tfrecord并放在vision目录下；把包含 val*和 instances_val2017.json的coco2017数据集文件夹重命名为coco并放在vision目录下。

接着进行下面的模型运行。