比赛地址:http://data.sklccc.com/2022
开源地址:https://aistudio.baidu.com/aistudio/projectdetail/5563450
赛题介绍
文本生成是自然语言处理中一个重要的研究领域,具有广阔的应用前景。随着深度学习和大规模预训练模型能力的提升,文本生成任务在社交媒体领域,特别是以文字为主要输出形式的媒体上,有了更大落地应用的可能性。
此任务提供微博对话数据集,每条数据主要包含微博文本内容,以及微博对应的回复。参赛选手需要根据给定的数据集,训练一个文本生成模型,可以生成自然流畅、信息丰富,符合话题场景的回复内容。
此任务的评估机制分为客观评估、主观评估两个阶段,客观评估阶段(11月29日-12月18日)的前10名参赛队伍提交模型及代码文件,由评委在新话题下生成评估数据,进行主观评估,得出最终排名。
数据说明
-
训练集:train.csv, 共有三个字段,每个字段以t划分.
- text,微博文本正文
- comment,回复文本内容
- weibo_id,微博文本对应的id
-
测试集:test_A.csv和test_B.csv 共有两个字段,每个字段以t划分。测试集有两个,分别用于客观测试和主观测试。
-
weibo_id,微博ID
-
text,微博文本正文
评估方式
评估机制分为客观评估、主观评估两个阶段。其中客观评估阶段在测试集A上针对客观指标进行自动评估,客观评估表现优秀者进入主观评估阶段。主观评估阶段需要参赛队伍提交模型文件及代码文件,评审人员基于参赛队伍的模型在测试集B上生成提交文件并进行主观评估。
在主观评估阶段,参赛队伍需要基于anaconda环境进行开发,遵循特定输入输出数据格式规范,提供anaconda中依赖环境、相关模型以及代码,以便评审人员能够评估模型能力。
自动评估阶段的得分为:
其中BLEU表示预测回复与标准回复的字粒度值;DISTINCT是对话内容多样性的自动指标。(其计算方式:对于一个weibo_id的多个生成评论内容求多样性,然后求所有weibo_id对应的多样性的平均)。
BertScoreFlrelation值用来评估生成的文本与博文的相关性,以及BertScoreF1similarity生成文本与真实评论的相似度 (针对每一条生成的评论,将该评论与所有真实评论求相似度,然后取最高分作为该条评论的相似度得分。最终将相似性得分求平均)。
数据读取
import paddlenlp
paddlenlp.__version__
'2.4.2'
!unzip data/data193239/dialogue_generation_01.zip
Archive: data/data193239/dialogue_generation_01.zip
inflating: 数据说明.docx
inflating: test_A.csv
inflating: train_data.csv
import pandas as pd
train_data = pd.read_csv('train_data.csv', sep='t')
test_data = pd.read_csv('test_A.csv', sep='t')
train_data.sample(2)
text | comment | weibo_id | |
---|---|---|---|
256406 | 【余生可有知音?#被谭维维这段墨梅戳中了#】“不要人夸颜色好,只留清气满乾坤。”元代画家王冕... | 谭维维谭维维 | 25289 |
217200 | 【转发周知!#流星雨和满月同时出现#】据北京天文馆,英仙座流星雨将在明天凌晨达到极大,预计这... | 问下湖北的看得见吗,要往哪个方向看呢? | 24908 |
test_data.sample(2)
weibo_id | text | |
---|---|---|
6086 | 24881 | 【#佩洛西评价自己脸皮厚# 网友:你还知道?】近日,美国国会众议长佩洛西不顾中方严正交涉,明... |
7125 | 25163 | 【专家:#种植牙集采要挤出虚高的价格水分#】国家医保局近日公布征求意见稿,明确要做好种植牙全... |
数据分析
train_data['text'].nunique(), train_data['comment'].nunique()
(6816, 266706)
test_data['text'].nunique()
1690
train_data['text'].apply(len).describe()
count 285891.000000
mean 203.050110
std 156.178596
min 4.000000
25% 137.000000
50% 165.000000
75% 224.000000
max 3266.000000
Name: text, dtype: float64
train_data['comment'].apply(len).describe()
count 285891.000000
mean 19.030508
std 18.287211
min 6.000000
25% 9.000000
50% 13.000000
75% 22.000000
max 265.000000
Name: comment, dtype: float64
赛题思路
赛题是一个典型的文本对话任务,但由于数据集是通过微博内容和评论进行组织,且一条微博存在多条评论。与现有的文本对话、文本摘要任务相比,赛题任务其实比较特殊:
- 赛题数据并不包含绝对很好的文本训练样本
- 赛题数据中存在大量的文本噪音,特别是短评论数据
- 赛题数据中评论存在大量重复的情况
思路1:开放域对话
十亿级语料训练最强中文闲聊模型PLATO-Mini,支持多轮对话
- 输入:微博内容
- 输出:微博评论
from paddlenlp import Taskflow
dialogue = Taskflow("dialogue")
print(dialogue(["你好"]))
[2023-02-24 12:43:30,294] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/plato-mini/plato-mini-vocab.txt
[2023-02-24 12:43:30,297] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/plato-mini/plato-mini-spm.model
[2023-02-24 12:43:30,355] [ INFO] - tokenizer config file saved in /home/aistudio/.paddlenlp/models/plato-mini/tokenizer_config.json
[2023-02-24 12:43:30,358] [ INFO] - Special tokens file saved in /home/aistudio/.paddlenlp/models/plato-mini/special_tokens_map.json
['你好,你在干什么呢?']
input_str = train_data['text'].iloc[0]
print(input_str)
print(dialogue([input_str]))
【#张帅首进辛辛那提网球公开赛16强#】中国球员张帅17日在女子网球协会辛辛那提公开赛第二轮比赛中,以6:3和6:4击败俄罗斯球员亚历山德洛娃,职业生涯首次打进该赛事16强。接下来,中国“金花”将面对2号种子、爱沙尼亚球员康塔维特,争夺一张四分之一决赛门票。
['张帅的比赛奖金是不是很高?']
思路2:问题生成
使用最大中文开源CPM模型完成问答
- 输入:微博内容 + 微博关键词
- 输出:关键词相关问题
from jieba import analyse
input_str = train_data['text'].iloc[0]
print(input_str)
print(analyse.extract_tags(input_str))
【#张帅首进辛辛那提网球公开赛16强#】中国球员张帅17日在女子网球协会辛辛那提公开赛第二轮比赛中,以6:3和6:4击败俄罗斯球员亚历山德洛娃,职业生涯首次打进该赛事16强。接下来,中国“金花”将面对2号种子、爱沙尼亚球员康塔维特,争夺一张四分之一决赛门票。
['球员', '16', '辛辛那提', '公开赛', '张帅', '网球', '亚历山德', '首进', '17', '洛娃', '康塔', '维特', '职业生涯', '爱沙尼亚', '打进', '金花', '决赛', '赛事', '第二轮', '四分之一']
question_generation = Taskflow("question_generation")
input_str = train_data['text'].sample(1).values[0]
print(input_str)
print(question_generation([{"context": input_str, "answer": analyse.extract_tags(input_str)[0]}]))
print(question_generation([{"context": input_str, "answer": analyse.extract_tags(input_str)[1]}]))
print(question_generation([{"context": input_str, "answer": analyse.extract_tags(input_str)[2]}]))
[2023-02-24 13:01:32,372] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/unimo-text-1.0-dureader_qg/unimo-text-1.0-vocab.txt
[2023-02-24 13:01:32,390] [ INFO] - tokenizer config file saved in /home/aistudio/.paddlenlp/models/unimo-text-1.0-dureader_qg/tokenizer_config.json
[2023-02-24 13:01:32,393] [ INFO] - Special tokens file saved in /home/aistudio/.paddlenlp/models/unimo-text-1.0-dureader_qg/special_tokens_map.json
[2023-02-24 13:01:32,396] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/unimo-text-1.0-dureader_qg/unimo-text-1.0-dureader_qg.pdparams
【转存学起来!#张雨霏教你一根弹力带练全身#】久坐少动,腰酸背痛,健身房太远,哑铃又太沉?奥运冠军@o张雨霏o 教你8个动作,改善圆肩驼背,锻炼手臂背部肌肉,强化臀腿肌群↓↓简单实用,别光收藏不练哦~#冠军私教课# 央视新闻的微博视频
['健身的私教是谁']
['一根弹力带可以练多少肌肉']
['久坐背痛练什么动作']
思路3: 文本摘要
文本摘要大模型
- 输入:微博内容
- 输出:摘要内容
text_summarization = Taskflow("text_summarization")
print(text_summarization(["中国球员张帅17日在女子网球协会辛辛那提公开赛第二轮比赛中,以6:3和6:4击败俄罗斯球员亚历山德洛娃,职业生涯首次打进该赛事16强。"]))
[2023-02-24 13:03:20,605] [ INFO] - Found /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/tokenizer_config.json
[2023-02-24 13:03:20,610] [ INFO] - We are using <class 'paddlenlp.transformers.pegasus.tokenizer.PegasusChineseTokenizer'> to load 'IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese'.
[2023-02-24 13:03:20,612] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/vocab.txt
[2023-02-24 13:03:20,615] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/added_tokens.json
[2023-02-24 13:03:20,617] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/special_tokens_map.json
[2023-02-24 13:03:20,618] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/tokenizer_config.json
[2023-02-24 13:03:20,671] [ INFO] - Found /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/model_config.json
[2023-02-24 13:03:20,675] [ INFO] - We are using <class 'paddlenlp.transformers.pegasus.modeling.PegasusForConditionalGeneration'> to load 'IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese'.
[2023-02-24 13:03:20,677] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/model_state.pdparams
[2023-02-24 13:03:20,679] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/model_config.json
We use pattern recognition to recognize the Tokenizer class.
['张帅职业生涯首进辛辛辛那提公开赛16强']
input_str = train_data['text'].sample(1).values[0]
print(input_str)
print(text_summarization([input_str]))
#我们要正告美方不要一条道走到黑#【马朝旭:美方要老老实实回到一个中国原则和中美三个联合公报上来 为中美关系稳定发展多做正事、实事】8月9日,外交部副部长马朝旭接受总台央视和中国国际电视台(CGTN)采访,就佩洛西窜访台湾答记者问。马朝旭表示,事实一再证明,美国是台海和平的最大破坏者,是地区稳定的最大麻烦制造者。如果国际社会任由美国胡作非为,《联合国宪章》将成为一纸空文,丛林法则将大行其道,受害的将是广大发展中国家。中国人民不信邪、不怕鬼,捍卫核心利益坚定不移。我们要正告美方,不要轻举妄动,不要一条道走到黑,趁早打消“以台制华”的念头,老老实实回到一个中国原则和中美三个联合公报上来,为中美关系稳定发展多做正事、实事。(总台央视记者 赵晶)央视新闻的微博视频
['马朝旭:美方要老老实实回到一个中国原则和中美三个联合公报上来为中美关系稳定发展多做正事、实事']
方案演示
for weibo_text in weibo_text_comment.index[:10]:
print('【微博原文】:', weibo_text)
print('【微博评论】:', set(weibo_text_comment.loc[weibo_text][:10]))
print('「对话模型」:', dialogue([weibo_text])[0])
print('「问题生成」:', question_generation([{"context": weibo_text, "answer": analyse.extract_tags(weibo_text)[0]}])[0])
print('「文本摘要」', text_summarization([weibo_text])[0])
print('')
【微博原文】: #00后已成医美消费主力军#【#如何看待暑假青少年整容热#背后,谁在贩卖“容貌焦虑”?】据了解,许多青少年都面临着不同程度的“容貌焦虑”。有调查显示,如今每到寒暑假、毕业季,都会出现学生扎堆整容的现象,“00后”们已成为医美消费的主力军。近日,记者尝试在多个社交、短视频App上搜索发现,“暑假整容”“暑假变美”“暑假变瘦”等,都是近一个月的热门话题。(法治日报)央视新闻的微博视频
【微博评论】: {'但是实话实说,当代社会,颜值红利真的太多了。长得好看的人就是有优势。', '咱口袋没钱的只能多开开美颜', '成龙都开双眼皮呢,看脸时代', '社会审美导致的', '从来没喜欢过网红锥子脸,前女友都是圆脸微胖', '00后都已经二十多岁了别什么都扯上00后啊', '过去还讲究女大十八变,现在倒好直接拔苗助长', '对拉个双眼没什么意见,但是要磨骨啥的我真的不行', '脸上动刀还是要慎重', '多宣传点正能量吧'}
「对话模型」: 蛰,我想问,你有过这个节目的记者吗?
「问题生成」: 2017什么时候整容
「文本摘要」 00后已成医美消费主力军
【微博原文】: #1.2元进价土豆卖2元拟罚30万#【1.2元进的土豆卖2元!黑龙江大庆拟对经营者罚30万】8月20日,市市场监督管理局执法人员在检查中发现,农批城内王三土豆经营部存在哄抬物价违法行为。经查,该经营部进价1.2元/斤的土豆,售价从1.4元/斤涨至2元/斤,最高进销差价率达66.66%。执法人员认为,王三土豆经营部利用其经营规模优势,借疫情哄抬物价,严重扰乱市场经营秩序,情节恶劣,根据《中华人民共和国价格法》和《价格违法行为行政处罚规定》,拟对经营者的违法行为处以30万元罚款。1.2元进的土豆卖2元!黑龙江大庆拟对经营者罚30万
【微博评论】: {'大庆物价太便宜了吧,卖2元就是哄抬物价?我们这没有低于2元的菜!', '只敢欺负老百姓,一斤挣8毛钱还算多吗?', '没感觉特别贵啊,你要是1.2元进的卖5元钱那是哄抬物价,这还可以吧', '开始收刮民脂民膏了。', '为啥这个报道缺斤少两呢,摊主卖了4000斤,而且他是批发,到了消费者手里多少钱。不能为了报道而隐瞒事实。', '这个罚法,先查一下和知名网店和超市吧,通常加价100%的。', '魔幻新闻大赏', '敢不敢把这股劲头用在医院上?医院的药片几块钱成本敢卖到几千敢不敢查?', '资本家看了都泪流满面:还是你们会玩!', '各大景区的物价关注一下'}
「对话模型」: 这是一部分项目,一分分项目,两份项目,一分项目,这是一份项目的项目,一款!
「问题生成」: 1.2元买多少土豆
「文本摘要」 1.2元进的土豆卖2元!黑龙江大庆拟对经营者罚30万
【微博原文】: #102岁外婆害羞说泡泡吹大了#【#火遍全网的表情包外婆害羞了#】几日前,浙江诸暨,102岁外婆看到外孙秒变惊喜表情包的视频火遍全网,深受网友们的喜爱。102岁外婆的后续来了!她说,“我现在精神蛮痛快的,小辈对我蛮好的。”网友:外婆四代同堂好幸福,祝福外婆身体健康!(美丽浙江) 新华社的微博视频
【微博评论】: {'老人长寿源于家和子孝', '真好,祝外婆健康长寿,想自己外婆了', '哈哈哈,好可爱', '祝外婆永远健康长寿', '也希望我奶奶能活到一百多岁,说我调皮。可她已经离开三年了,好想奶奶', '希望我也能活到100岁', '希望奶奶健健康康的', '外婆的发量真令人羡慕', '好幸福、祝老人长寿', '好可爱的老奶奶哦!'}
「对话模型」: 你是不是看过《新闻联播》呀!
「问题生成」: 102岁外婆害羞了什么
「文本摘要」 102岁外婆害羞说泡泡吹大了
【微博原文】: #11岁哥哥捐髓救4岁弟弟#【#11岁哥哥捐髓救弟弟成功后紧紧相拥#】近日,浙江杭州,4岁弟弟得了白血病,11岁哥哥毫不犹豫捐造血干细胞救弟弟。手术成功后,弟弟见到哥哥开心地手舞足蹈,哥哥迫不及待一把将其抱起。网友:兄弟俩满眼都是彼此!新华社的微博视频
【微博评论】: {'弟弟小腿蹦哒的,是真的开心', '我记得有个哥哥得了白血病弟弟不愿捐的新闻', '相扶相持一起长大', '希望健康,顺丰', '为哥俩点赞祝福!我家11岁哥哥和4岁弟弟还在打架?', '好哥哥!!真感动 看得我热泪盈眶', '真是幸运的宝贝', '愿早日康复,做健康幸福的好兄弟!', '祝一切平安顺遂!', '小小孩子受苦了 以后要健健康康的'}
「对话模型」: 我也看了这个,我还去参加过那个节目,真的是很有意思!我很喜欢看。
「问题生成」: 哥哥捐髓救了几岁
「文本摘要」 11岁哥哥捐髓救4岁弟弟成功后紧紧相拥
【微博原文】: #12人自发为爱心补给站添水#【#市民自发为爱心冰柜添水200多箱#】近日,浙江慈溪,爱心人士放置“爱心补给站”,为环卫工人等一线工作者提供免费水,陆续有人自发来添加瓶装水。“爱心补给站”发起人曾先生说,刚开始是想为大家提供便利,后来好几家店加入进来,看到满满的冰柜心里挺感动的。(美丽浙江) 新华社的微博视频
【微博评论】: {'人间处处有真情!', '前面是偷水的视频这个就', '浙江是个暖人的省份', '人间自有真情在', '素质真高!!', '环卫工人真的好辛苦', '中国人的质朴和善良 和谐社会真的很美', 'love is in the air.人民善良朴实', '真是人和人怎么差这么多,好人都在放进去,坏人偷6箱', '如果放在我的城市 很多老年人大概率会无限白嫖'}
「对话模型」: 你也看过这个视频啊,我也很喜欢。
「问题生成」: 杭州有多少人为冰柜添水
「文本摘要」 市民自发为爱心冰柜添水200多箱
【微博原文】: #17家房企联名请求打击专业房闹#【一地17家房企联名请求市政府:打击专业房闹及“恶意维权”】一份名为《关于请求维护营商环境、增强房企投资信心的纾困解难报告》的文件称,合肥市房屋交付中,普遍有不合理、不合规的客户诉求问题且高度一致,背后可能有专业房闹机构推波助澜。对此,你怎么看?
【微博评论】: {'有一些就是觉得投资失误了, 想讨回钱。唉!投资本来就是有赚有亏,这种不能怪开发商。但是如果是质量问题那就必须抗争到底', '依法解决就是,不依法就是在瞎闹。', '《恶意维权》', '首先是你怎么看?而我选择不看', '呼吁立刻停止恶意买房!把房子都留给开发商自己住吧', '挟债务令天下', '先消灭恶意烂尾吧 还有恶意预售', '恶意维权不觉得这罪名可笑吗', '房地产商都是爷,客户都当起了孙子,这就是和谐社会!', '房产商就是黑社会'}
「对话模型」: 这是一个很正常的问题,我们应该积极配合这个问题进行解决。
「问题生成」: 合肥房企打击哪些机构
「文本摘要」 一地17家房企联名请求打击专业房闹
【微博原文】: #2022年长春航展#【高清视频!#超近距离看运油20#】今天上午,空军新闻发言人申进科大校在2022年空军航空开放活动暨长春航空展新闻发布会上介绍,运油-20将首次向社会公众展示。戳视频看运油-20高清画面↓↓央视军事的微博视频
【微博评论】: {'厉害了,我的国。', '我们尊重别人的路,但我们要走自己的路', '真的好厉害的!好想亲眼看看', '好厉害!!!', '麻烦关注一下江西疫情 小县城贵溪疫情 huang报数量 快要上百个中高风险地区了 封家里半个月了 能不能重视下啊 [/cp]', '我要大涵道的,小的不要', '那么多红绳绳 是不是新客户接机', '厉害了我的国??', '厉害了我的国', '人民空军,越来越强大'}
「对话模型」: 这两个视频内容是怎么回事?
「问题生成」: 运油有多大的视频
「文本摘要」 运油-20 首次向公众展示
【微博原文】: #20岁小伙玩剧本杀致重度成瘾#【你被“剧本杀”了吗?杭州小伙入戏太深,心理专家称已重度成瘾】“剧本杀”是以剧本形式虚拟出一个凶案故事,让玩家在故事中扮演不同角色,分析推理案件、找出凶手。因其极具故事性和场景性,吸引了大批年轻人来玩。近日,杭州20岁的大学生小刘,因为玩剧本杀出了状况,被家人送到了浙江省立同德医院。母亲哭诉:“我儿子最近玩剧本杀快走火入魔了,医生你快救救他吧。”小刘原本是个不爱社交的人,经朋友介绍玩起了剧本杀,新认识交了不少朋友。理应说,这是好事儿。可是到后来,小刘连学也不想上了,天天就想玩剧本杀,整天精神萎靡,半夜还会大喊大叫。“他把自己当成剧本里的角色了”。浙江省立同德医院心身科主任李晓一主任医师诊断其为重度游戏成瘾。李主任分析,剧本杀给人们带来的是非日常体验。我们都知道,人有各种各样的情绪,但是在现实生活中,我们能够体验到各种情绪的机会是有限的,比如说直面死亡、惊险、威胁和恐惧等,而剧本杀往往能满足人们对这一需求的体验。行为成瘾的心理社会因素相对复杂,一般认为与家庭因素、个人心理特质以及个体共患病等因素相关。(钱江晚报) #20岁大学生玩剧本杀致重度成瘾#
【微博评论】: {'不喜欢玩剧本杀', '有这种瘾的人应该去剧组做群演,满足心理欲望', '可以自己开个剧本杀店当常驻mc', '所以剧本杀的本子应该适当的规避一些暴力,杀人这种', '自己管不好成天怪这怪那的,从听音乐到看电影,街机到电视,小说到电脑,从来没想过是自己的问题', '这不是他自己本来就患有表演型人格障碍吗,剧本杀不过是为他构筑了一个完美的剧本,如果别人也同样给他编排一个剧本他也会变成现在这样', '主要还是太闲了~ 也不用当家', '完全玩不来,', '呃 这还能上热搜啊', '他不沉迷剧本杀也会沉迷别的,还是自身心理问题,赶紧治疗'}
「对话模型」: 你是你儿子是个小儿子的儿子的儿子,儿子今年多大了两岁,女儿多大,我是个儿子,他的儿子今年20岁了,儿子的父亲,儿子在家。
「问题生成」: 20岁大学生玩什么游戏
「文本摘要」 20岁小伙玩剧本杀致重度成瘾
【微博原文】: #27岁小伙已交满15年社保# 【#当事人回应27岁已交15年社保# :拆迁补偿了10年,生活没有改变,心态上会压力小一点】近日,浙江杭州。有网友在社交平台发文:“95年已交满15年社保了,还需要在交嘛”。他表示自己95年出生,目前社保已经交满了15年,其中工作6年交了6年,拆迁补偿10年。很多网友纷纷留言,好羡慕啊,可以在单位躺平了。对此该网友表示:自己是在街道里上班,生活上没有改变,心态上压力会小一点,准备辞职做些自己想做的事情。@九派新闻 九派新闻的微博视频
【微博评论】: {'典型的人生赢家,退休生活保障已经提前固定了', '现在辞职?是不是莽了些啊'}
「对话模型」: 你在街道里上班?是做什么工作呢?
「问题生成」: 27岁社保多少年
「文本摘要」 27岁小伙已交满15年社保
【微博原文】: #2女子为逃离家暴离家出走后重婚#2022年的3月和5月,67岁的贵州女子杨某和47岁的潘某英因触犯重婚罪被贵州三穗县人民法院分别判处有期徒刑6个月和拘役4个月。两位来自贵州农村的女性,都因为家暴逃离了上一段婚姻。但是,二人都在没有离婚的情况下离家而走。20多年以后,她们因为重婚承担了刑责。二人未提起上诉,已服刑。公诉机关曾提出对上述两位犯重婚罪的妇女实行缓刑,审判机关以适用缓刑具有再犯的危险为由,不予采纳此量刑。涉及上述两起案件的一名法官对记者说:“家暴字样是在检察院的公诉意见中出现的,这不能代表法院的意见。认定家暴对于离婚案件来说很重要,但对于我们(这起)刑事案件来说,家暴是一个情节,而非重点。”他还表示,无论家暴与否、家暴到什么程度,都不能成为重婚的理由。因为“家暴的问题是可以通过离婚的程序解决的。”#清华教授评2名妇女逃离家暴后被判重婚#对于此案,清华大学教授劳东燕发文质疑:我不知道,为什么审案的法官会认为,家暴不是本案的重点而只是一个情节。家暴行为的存在与否以及家暴的程度,在很大程度上会影响被告人罪责的认定,怎么就不是重婚案件审理中应予关注的重点呢?劳东燕建议通过审判监督程序,纠正对报道中所提及两起案件的现有判决。(来源综合:看天下、红星新闻、搜狐新闻)
【微博评论】: {'不懂就问:重婚的定义是不是又再领证了?那没提供离婚证 民政局就又给发结婚证了?', '因为清华教授是教课的,不是实际在法院工作的。他收不到《指导意见》的,没压力的', '那么多找几个对象生几个孩子的,我以为这年头没什么重婚罪的定罪可能了,比较条件太容易规避。结果神奇地出现被各种违法行为侵害的可怜人身上', '但凡能离得简单痛快,谁愿意重婚?往往要和家暴男离婚都是持久战扯皮战,离婚要预约、要核酸、要冷静期,离婚这么难,到底是谁有问题?', '这个判决的法院法官再回炉一下吧,感觉还是旧社会的残留。', '这是重回了那个旧社会了吗', '妇联呢!妇联出来', '受不了虐待找到好对象重婚被判,家暴多年不判,明白了从一开始就不该结婚', '男人有三有四一点事没有,女人为活命便要服刑', '这法官不合理'}
「对话模型」: 你的,请问你是什么意思呢?
「问题生成」: 重婚后被判什么罪
「文本摘要」 清华教授评2名妇女逃离家暴后被判重婚
方案总结与展望
在本次项目中我们使用PaddleNLP内置的大模型 + 一键运行的能力,可以快速的搭建的微博对话机器人,并且取得了不错的效果。
在三种思路中对话模型的效果最好,也比较贴近微博评论的语气,但与真实评论相比还有一定的差异,特别是复杂的句子输入中。
未来可以考虑直接使用BART、T5或GPT来训练对应的微博评论生成模型,这样会取得更好的精度。
如下为ChatGPT的对话结果,但值得参考:
输入的prompt + 微博内容
接下来我讲输入一段新闻内容,请模仿网友输出10条评论,要带有个人情感和色彩的评论。
【#如何看待暑假青少年整容热#背后,谁在贩卖“容貌焦虑”?】据了解,许多青少年都面临着不同程度的“容貌焦虑”。有调查显示,如今每到寒暑假、毕业季,都会出现学生扎堆整容的现象,“00后”们已成为医美消费的主力军。近日,记者尝试在多个社交、短视频App上搜索发现,“暑假整容”“暑假变美”“暑假变瘦”等,都是近一个月的热门话题。(法治日报)央视新闻的微博视频
ChatGPT输出结果
1. 真心觉得这件事情很让人心疼,现在的孩子们对于自己的外貌有着太大的焦虑和压力了。 2. 我不理解为什么现在的社会这么注重外表,美丽难道就是一切吗?这种价值观真的很让人难以接受。 3. 真的很担心这些年轻人的身体健康和心理健康,他们的追求和价值观似乎都被外在因素所左右了。 4. 如果整容机构和医生真的有责任感和职业道德,应该积极引导年轻人树立正确的审美观念,而不是为了利润而满足他们的需求。 5. 整容并不是一个可以轻率对待的事情,它需要慎重考虑和准备,不应该被当做一种消费习惯来对待。 6. 社会应该对外表的过度关注和不健康的审美观念进行反思和批判,而不是盲目追随和宣扬。 7. 整容并不是解决容貌焦虑的根本途径,年轻人应该通过多方面的途径提升自己的自信和自尊心。 8. 我们应该尊重每个人的选择,但是也要引导他们做出更加明智和理性的选择,不要盲目跟风。 9. 对于那些利用青少年的容貌焦虑来赚钱的人,真的很无语,这种道德败坏的行为应该受到谴责。 10. 我们应该从教育入手,从小培养孩子们的良好价值观和审美观念,让他们有健康的心态面对自己和他人的外貌。