ChatGPT数据增强方法
NLP数据增强是指使用各种技术和方法来扩大训练数据集,从而提高自然语言处理(NLP)模型的性能和鲁棒性。
NLP数据增强可以通过多种方式实现,这些技术可以单独或组合使用,下面展示部分常见的方法:
- 同义词替换:将原始文本中的某些单词替换为其同义词,例如将“好”替换为“优秀”。
- 随机插入:在文本中随机插入一些单词或短语,例如在句子中插入“有时候”或“通常情况下”。
- 随机删除:从文本中随机删除一些单词或短语,例如删除一些限定词或形容词。
- 随机交换:交换句子中相邻的两个单词或短语,例如将“我很喜欢吃巧克力”变成“我巧克力很喜欢吃”。
- 文本合成:使用不同的句子或段落来生成新的文本,例如将两个句子合并成一个,或将多个段落合并成一个。
- 增加噪音:向文本中添加噪音,例如添加拼写错误或词汇错误。
在ChatGPT中只需要的输入下面的Prompt就可以完成相似的功能:
- 对句子中单词进行随机同义词替换;
- 对句子中单词进行随机反义词替换;
- 对句子中单词进行随机同音词替换;
- 对句子中单词进行随机错别字替换;
- 对句子中单词进行随机位置交换;
- 生成和下面句子含义相似的句子;
- 对句子先翻译为英文,然后返回为德语,然后翻译为中文;
使用时Prpmpt需要注意:
- 需要变换的方法
- 变换为维度(字还是单词)
- 变换的次数(产生句子的个数)
ChatGPT数据增强案例
文本生成
输入ChatGPT内容:
对每个句子进行改写,输出2份和他含义相近的。
1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频
ChatGPT输出结果:
1. 请问13号是否还有从双鸭山到淮阴的汽车票? 有没有13号从双鸭山到淮阴的汽车票?
2.
随便放一首阁楼里的佛里专辑里的歌曲。
播放阁楼里的佛里专辑中的一首歌曲。
3.
帮我找一下S686在团队竞技中挑战的游戏视频。
我想观看S686在团队竞技中挑战的游戏视频。
回译
输入ChatGPT内容:
对下面的每个句子进行翻译为英文,然后翻译为德语,然后翻译为中文。
1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频
ChatGPT输出结果:
英文:Is there still a bus ticket from Shuangyashan to Huaiyin on the 13th? 德语:Ist noch ein Busticket von Shuangyashan nach Huaiyin am 13. verfügbar? 中文:还有从双鸭山到淮阴的巴士票吗,日期是13号的?
英文:Play a random song by Buddhainthe album Attic.
德语:Spiel ein zufälliges Lied von Buddha im Album Attic ab.
中文:随机播放《阁楼》专辑里的佛里的歌曲。
英文:I want to watch a game video of playing two s686sinMutation Team Battle.
德语:Ich möchte ein Spielvideo sehen,indem zwei s686inMutation Team Battle gespielt werden.
中文:我想观看在《绝地求生》突变团队竞技模式中使用两把S686进行挑战的游戏视频。
同义词替换
输入ChatGPT内容:
对下面的每个句子中的单词进行同义词替换,分别替换生成3个句子。
1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频
ChatGPT输出结果:
1. 还有双鸭山到淮阴的巴士票吗13号的 还有双鸭山到淮阴的交通票吗13号的
2.
随便播放一首专辑阁楼里的佛里的音乐
随便播放一首专辑阁楼里的佛里的曲子
3.
我想看挑战两把s686打突变团竞的游戏影片
我想看挑战两把s686打突变团竞的游戏录像
随机删除
输入ChatGPT内容:
对下面的每个句子中的单词进行随机删除,分别生成2个句子。
1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频
ChatGPT输出结果:
1. 还有淮阴的汽车票吗13号的 还有到淮阴的汽车票吗13号的
2.
随便播放一首专辑佛里的歌
随便播放阁楼里的佛里的歌
3.
我想看两把s686打突变竞的游戏视频
我想看挑战s686打团竞的游戏视频
随机插入
输入ChatGPT内容:
对下面的每个句子中的随机添加一些单词,分别生成2个句子。
1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频
ChatGPT输出结果:
1. 还有双鸭山到淮阴的绿色的便宜的汽车票吗13号的吗? 还有双鸭山到淮阴的汽车站的窗口买13号的票可以吗?
2.
随便播放一首专辑阁楼里的佛里的经典老歌吧。
可以在阁楼里专辑里随意挑选一首佛里的歌曲播放。
3.
我想看挑战两把s686打突变团竞的游戏视频,请给我找一些最好的。
你能给我推荐一些s686在突变团竞中的挑战视频吗?
随机交换
输入ChatGPT内容:
对下面的每个句子中的单词进行随机交换,分别生成2个句子。
1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频
ChatGPT输出结果:
1. 汽车票的双鸭山还有到淮阴13号吗? 淮阴到双鸭山还有13号的汽车票吗?
2.
随便里播放阁一首专辑佛楼的歌
一首随便播放阁楼里的佛专辑的歌
3.
两把s686打挑战想我看突变团竞的游戏视频
突变团竞的游戏视频我想看挑战两把s686打
错别字替换
输入ChatGPT内容:
对下面的每个句子中的字进行替换为错别字,分别生成2个句子。
1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频
ChatGPT输出结果:
1. 还有双鸭衫到淮阴的汽车票吗13号的 还有双鸭山到淮阴的汽车飘吗13号的
2.
随便剖开一首专辑阁楼里的佛里的歌
随便波动一首专辑阁楼里的佛里的歌
3.
我想看挑战两把s686打突遍团竞的游戏视频
我想看挑战两把s686打突变团警的游戏视频
同音词替换
输入ChatGPT内容:
对下面的每个句子中单词随机替换为同音词,分别生成2个句子。
1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频
ChatGPT输出结果:
1. 还有数鸭山道淮阴的汽车票吗13号的 还有双雅闪达淮音的汽车票吗13号的
2.
随便播放一首专辑阁楼里的佛里的歌
随便播放一首专辑隔楼里的佛理的狗
3.
我想看挑战两把S686打突变团竞的游戏视频
我想看挑战两把S686打图变团精的游戏视频
反义词替换
输入ChatGPT内容:
对下面的每个句子中单词随机替换为反义词,分别生成2个句子。
1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频
ChatGPT输出结果:
1. 还有深圳到上海的航班票吗3号的 没有长春到南京的高铁票吗12号的
2.
随便静音一张单曲酒馆内的死寂的诗
随便跳舞一首专辑森林里的飞蛾扑火的歌
3.
我想玩坚持一把p92打突变模式的游戏视频
我不想看放弃两把akm打团队模式的游戏视频
使用注意事项
通过多次实验我们发现,ChatGPT并不擅长进行复杂或者组合的数据增强,否则生成的效果比较差。
对于每种增强方法,ChatGPT输出的速度也存在明显差异。比如插入同义词或反义词比较慢,但随机单词替换比较快。
ChatGPT本质还是GPT网络,擅长生成文本。因此使用ChatGPT生成相似的句子,可以为分类模型增加精度。
https://arxiv.org/pdf/2302.13007.pdf