Kaggle赛题解析：Bengali 语音识别

赛题名称：Bengali.AI Speech Recognition

赛题类型：语音识别

赛题任务：从未发行的录音中识别孟加拉语语音

赛题链接?：https://www.kaggle.com/competitions/bengaliai-speech

比赛背景

比赛的目标是开发一个用于孟加拉语的语音识别模型，可以识别来自不同领域的语音，这些领域在训练数据中并不存在。参赛者将使用名为“Massively Crowdsourced (MaCro) Bengali speech dataset”的数据集，其中包含了来自印度和孟加拉国约24,000人提供的1,200小时的语音数据作为训练数据。

这个比赛的独特之处在于测试集包含了17个不同领域的样本，这些样本是有意在训练数据中排除的。这意味着模型对于新领域和多样性的泛化能力，也就是所谓的“out-of-distribution generalization”，在比赛中非常关键。

通过参与这个比赛，选手可以为提高孟加拉语的语音识别水平做出贡献，并解决该语言中多样化方言和韵律特征的挑战。孟加拉语是全球使用人数约为3.4亿的语言，改进的语音识别可以产生重大影响。

比赛任务

在比赛中，你需要构建一个能够处理孟加拉语音的模型，该模型要在训练集之外的多样化领域中进行泛化。这意味着你的模型需要具备较强的out-of-distribution generalization能力，以便在测试集中表现良好。

这是一个代码竞赛，比赛数据集包含大约1200小时的孟加拉语音记录。你的目标是对在训练集方面是“out-of-distribution”（即不在训练集中的样本）的语音录音进行转录。

关于数据集的详细信息可以在数据集的论文中找到：https://arxiv.org/abs/2305.09688

评估指标

提交的结果将通过计算平均词错误率来进行评估，具体步骤如下：

首先，计算测试集中每个实例的词错误率（Word Error Rate，简称WER）。
接着，在每个领域内对词错误率进行平均，使用句子中的词数进行加权。
最后，计算各个领域平均值的无权平均值，作为最终得分。

词错误率是衡量语音识别性能的重要指标，它表示系统识别结果与参考文本之间的差异程度。比赛中使用这个指标来衡量参赛者的语音识别模型在测试集上的表现。在计算词错误率时，参考文本是测试集中的真实标签，系统识别结果是模型预测的文本。

赛题时间轴

2023年10月10日 - 参赛截止日期。
2023年10月10日 - 团队合并截止日期。
2023年10月17日 - 最终提交截止日期。

赛题数据集

train/：训练集，包含数千个MP3格式的录音文件。
test/：测试集，包含来自18个不同领域的自发语音录音，其中17个领域与训练集不同。私有测试集中可能还包含公共测试集中不存在的领域。
examples/：每个测试集领域的示例录音。这些示例录音可能有助于构建对领域变化具有鲁棒性的模型。这些示例录音是代表性的，且不会出现在测试集中。
train.csv：训练集的句子标签。
- id：每个实例的唯一标识符。对应于train/目录中的文件{id}.mp3。
- sentence：录音的纯文本转录。你的目标是为测试集中的每个录音预测这些句子。
- split：标识该实例属于train还是valid。valid中的注释已经进行了人工审核和纠正，因此比train中的注释质量更高，但两者都属于相同的分布。
sample_submission.csv：一个样本提交文件，格式正确。详情请参阅Evaluation页面。