<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>弱智吧 | Yummy 😋</title><description>📰 本频道不定期推送科技数码类新资讯，欢迎关注！  ©️ 发布的内容不代表本频道立场，和你意见不一样的话欢迎在评论区留言表达，但请注意言辞，面斥不雅。  ‼️ 关联群组定期清理不活跃成员和僵尸号，误封请联系管理员。🔗 博客: https://yummy.best  💬 群组: @GodlyGroup  📬 投稿: @GodlyNewsBot  🪧 广告合作： @yummybest_bot.</description><link>https://rgzn.zz.ac</link><item><title>“弱智吧”不收弱智，成最佳中文AI训练语料！4月4日，“弱智吧”突然在中文AI领域刷屏，中科院用各大社交平台的数据，作为中文AI语料数据进行训练，结果发现“弱智吧”居然是最棒的中文语料，在多项测试中取得最高分！目前LLM大型语言模型中，英文语料占到大多数，而中文数据集此前多半是先从英文翻译再进行训练，很多大模型的中文效果比英文差，为了调侃AI，许多人也常常拿弱智吧的问题去挑战AI</title><link>https://rgzn.zz.ac/posts/7990</link><guid isPermaLink="true">https://rgzn.zz.ac/posts/7990</guid><pubDate>Sat, 06 Apr 2024 08:53:38 GMT</pubDate><content:encoded>&lt;div&gt;
      
        &lt;img src=&quot;/static/https://cdn5.telesco.pe/file/eIwXmOW2Tg_UULkH_4ieP9vMPQSLtcYpJ80IigOKLAvGZwsSZ4kd_gZ3-IgQNz8y4cCuiUobHpcbTcOdMJVM-HBkBRWVDVKyAcdhP2XYOQjfUA1V7XTYCDivVJn7sbXSDg8kwMSDnv23RMenIwmv1J8GL1RX70Uob1-vUYaG2mVorTuJ9B_ryMt410KHV3UcW_V2j89Z3vdF5wDhk8YKzA4qjvJMr8DRJNBXReGJZNk0YtnxC6iTIoBtuVYqaXQeXESldGQA109k8yfunRaMcrsvTvVi63MmVzZXojItzIFBNQKPp20DLaf1VjwZK_cZAhFoLQVYfkTzOZotiTx58g.jpg&quot; alt=&quot;“弱智吧”不收弱智，成最佳中文AI训练语料！4月4日，“弱智吧”突然在中文AI领域刷屏，中科院用各大社交平台的数据，作为中文AI语料数据进行训练，结果发现“弱智吧”居然是最棒的中文语料，在多项测试中取得最高分！目前LLM大型语言模型中，英文语料占到大多数，而中文数据集此前多半是先从英文翻译再进行训练，很多大模型的中文效果比英文差，为了调侃AI，许多人也常常拿弱智吧的问题去挑战AI&quot; loading=&quot;lazy&quot; /&gt;
      
      
        
      
    &lt;/div&gt;&lt;b&gt;“&lt;/b&gt;&lt;mark&gt;&lt;b&gt;弱智吧&lt;/b&gt;&lt;/mark&gt;&lt;b&gt;”不收弱智，成最佳中文AI训练语料！&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;4月4日，“&lt;mark&gt;弱智吧&lt;/mark&gt;”突然在中文AI领域刷屏，中科院用各大社交平台的数据，作为中文AI语料数据进行训练，结果发现“&lt;mark&gt;弱智吧&lt;/mark&gt;”居然是最棒的中文语料，在多项测试中取得最高分！&lt;br /&gt;&lt;br /&gt;目前LLM大型语言模型中，英文语料占到大多数，而中文数据集此前多半是先从英文翻译再进行训练，很多大模型的中文效果比英文差，为了调侃AI，许多人也常常拿弱智吧的问题去挑战AI。为了更好地满足中文大模型的需求，中科院联合多所大学利用中文数据集来训练中文大模型。&lt;br /&gt;&lt;br /&gt;首先，团队直接找到某乎、某瓣等社交网络平台，爬取数据并进行标注，打造了全新的中文指令微调数据集COIG-CQIA，再用这些数据集来训练零一万物开源大模型，并用GPT4在BELLE-Eval测试集上打分。&lt;br /&gt;&lt;br /&gt;在340亿参数版本的Yi-34B下，弱智吧的分数非常突出，可以说是一骑绝尘，在问答、分类、生成、总结、摘要和代码上均取得极高的分数，数学某乎分数最高76分，但弱智吧也取得了72.6分的高分，最终均分76.9分遥遥领先！&lt;br /&gt;&lt;br /&gt;弱智吧的出色成绩也引起了大量的讨论，对比其他专业的技术问答社区，弱智吧的数据集其实更加精炼有效，提高模型的逻辑推理能力，而且“弱智”的方向十分多元，文本质量极高，从而提高了模型性能。&lt;br /&gt;&lt;br /&gt;而COIG-CQIA，也成为目前相对来说相当高质量的中文指令微调数据集，收集了来自各种来源如社交媒体、百科知识、考试题库等大量高质量的中文指令，弱智吧的出色表现，出在高质量中文知识学习方面的潜力，也给我们带来更多深入的思（乐）考（子）。&lt;br /&gt;&lt;br /&gt;&lt;i&gt;&lt;b&gt;🗒&lt;/b&gt;&lt;/i&gt; 标签: &lt;a href=&quot;/search/%23AI&quot;&gt;#AI&lt;/a&gt; &lt;a href=&quot;/search/%23%E4%B8%AD%E6%96%87%E9%A2%84%E6%96%99&quot;&gt;#中文预料&lt;/a&gt; &lt;a href=&quot;/search/%23%E5%BC%B1%E6%99%BA%E5%90%A7&quot;&gt;#弱智吧&lt;/a&gt;&lt;br /&gt;&lt;i&gt;&lt;b&gt;📢&lt;/b&gt;&lt;/i&gt; 频道: &lt;a href=&quot;https://t.me/GodlyNews1&quot; target=&quot;_blank&quot;&gt;@GodlyNews1&lt;/a&gt;&lt;br /&gt;&lt;i&gt;&lt;b&gt;🤖&lt;/b&gt;&lt;/i&gt; 投稿: &lt;a href=&quot;https://t.me/GodlyNewsBot&quot; target=&quot;_blank&quot;&gt;@GodlyNewsBot&lt;/a&gt;</content:encoded></item></channel></rss>