赛题名称:Google 美国手语识别
训练快速准确的美国手语手指拼写识别模型
https://www.kaggle.com/c/asl-fingerspelling
赛题任务:手语识别、时序分类
赛题背景
支持语音的助手打开了现代设备的实用功能世界,有时甚至可以改变生活。这些革命性的人工智能解决方案包括自动语音识别和机器翻译。不幸的是全球超过 7000 万使用手语进行交流的聋人,以及全球 15 亿多受听力损失影响的人,通常无法使用这些技术。
手指拼写使用代表单个字母的手形来传达单词。虽然手指拼写只是 ASL 的一部分,但它通常用于交流姓名、地址、电话号码和其他通常在手机上输入的信息。许多聋人智能手机用户用手指拼写单词的速度比他们在移动键盘上打字的速度还快。ASL 手指拼写比在智能手机的虚拟键盘上打字要快得多。但是用于文本输入的手语识别 AI 远远落后于语音到文本甚至基于手势的输入,因为以前不存在强大的数据集。
赛题任务
本次比赛的目标是检测美国手语 (ASL) 手语拼写并将其翻译成文本。您将创建一个在同类最大数据集上训练的模型,该数据集专门为本次比赛发布。
这些数据包括超过 300 万个手指拼写的字符,这些字符由 100 多名聋人手语者通过智能手机的自拍相机在各种背景和照明条件下拍摄。
本次比赛要求以TensorFlow Lite 模型的形式提交作品。只要您在提交前将模型检查点转换为 tflite 格式,就可以使用您选择的框架来训练您的模型。详情请查看评估页面。
赛题数据
- [train/supplemental_metadata].csv
- [train/supplemental] The landmark data.
Landmark 地标数据使用 MediaPipe 整体模型从原始视频中提取地标。并非所有的框架都必须有可见的手或模型可以检测到的手。
评价指标
本次比赛的评估指标是归一化总编辑距离。标签中的字符总数为N,总编辑距离为D。指标等于(N - D) / N。
在本次比赛中,您将提交一个 TensorFlow Lite 模型文件。该模型必须将一个或多个地标帧作为输入,并返回一个浮点向量(每个标志类别的预测概率)作为输出。
赛题赛程
2023 年 8 月 3 日 - 报名截止日期。您必须在此日期之前接受比赛规则才能参加比赛。
2023 年 8 月 3 日 - 团队合并截止日期。这是参与者可以加入或合并团队的最后一天。
2023 年 8 月 10 日 - 最终提交截止日期。
赛题解析
赛题可以视为时序分类比赛,可参考之前结束了类似的手语识别比赛:https://www.kaggle.com/c/asl-signs
赛题典型的模型包括CNN和Transformer,并且需要大量的进行数据增强,在模型选择和数据处理则需要理解MediaPipe的数据来和组成。