摘要: RAG的效果好不好,最核心依赖两点:a56爆大奖在线娱乐embedding语义提取的好不好,rerank的排序效果好不好(包含正确答案的a56爆大奖在线娱乐是不是排在前面)!各自使用的环节如下: 1、a56爆大奖在线娱乐embedding的提取:理论上讲,任何transformer架构的encoder部分都可用于生成token的embedding 阅读全文
posted @ 2024-06-29 23:05 第七子007 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 钢铁侠都看过吧,男猪脚 tony 只需要语音说话给出指令,AI助手会完成所有的指令,期间完全不需要人干预了,全程自动化,看着是不是很科幻?很过瘾?现阶段,市面上所有的大模型核心功能还是问答,能准确回答用户的提问已经很不错了,那么问题来了: 怎么根据用户的指令去干具体的活了? 怎么判断任务已经完成了? 阅读全文
posted @ 2024-06-26 23:38 第七子007 阅读(8) 评论(0) 推荐(0) 编辑
摘要: LLM大模型的核心功能之一就是聊天对话(信息检索),RAG的使用必不可少!大致的流程是:用户的query先转成embedding,去向量数据库查询最接近的top K回答;然后这query + top K的回答 + 其他context一起进入LLM,让LLM整合上述所有的信息后给出最终的回复! 为了简 阅读全文
posted @ 2024-06-23 12:19 第七子007 阅读(67) 评论(0) 推荐(0) 编辑
摘要: NLP常见的任务之一是高效检索:在大规模语料库中快速检索与查询相关的段落或文档;用户输入query,要在语料库中找到语义最接近、最匹配的回答!此外,还有a56爆大奖在线娱乐分类、情感分析等下游任务需要先把a56爆大奖在线娱乐的embedding求出来,这些功能都能通过"双塔结构"(Bi-Encoder)实现!核心思路很简单:用两个 阅读全文
posted @ 2024-06-19 18:19 第七子007 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 1、前段时间国外某大学反向抄袭国内某团队的大模型闹得沸沸扬扬,国内被抄袭的大模型是MiniCPM,详细资料:https://github.com/OpenBMB/MiniCPM ; 能被国外同行抄袭,必定有过人之处,粗略看了一下https://github.com/OpenBMB/MiniCPM/b 阅读全文
posted @ 2024-06-17 23:32 第七子007 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 1、古人云:闻道有先后,术业有专攻!a56爆大奖在线娱乐人的能力范围是有限的,不可能360行,行行都精通!a56爆大奖在线娱乐搞研究都会选一个细分领域深耕,争取在这个领域做到世界top级别的泰斗!一个团队,内部也都是在各个领域擅长的人组成,比如前端、ui、后端、算法、运维、运营等,大家互相配合,完成既定目标!本人多年前做传统的数据 阅读全文
posted @ 2024-06-15 15:41 第七子007 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 1、attention机制:这算是transformer架构最大的创新点了!利用attention机制,找到token之间的相似度(或则说距离),根据相似度调整token本身的embedding值,本质就是根据token的context调整自身的embedding值,这个思路非常符合人脑对语言和语义 阅读全文
posted @ 2024-06-12 23:07 第七子007 阅读(59) 评论(0) 推荐(0) 编辑
摘要: transformer火了之后,基于transformer架构的llama也火了,可能的原因: 来自meta,一线互联网大厂,质量有保证;自称70b参数的表现比chatGPT3还好(Llama 2:Open Foundation and Fine-Tuned Chat Models)! 可能会成为大 阅读全文
posted @ 2024-06-11 09:43 第七子007 阅读(71) 评论(0) 推荐(0) 编辑
摘要: 1、源代码相似度检测的用途很多,比如: 代码抄袭克隆 高危/漏洞代码检测 软件成分的分析 以往的字符串/a56爆大奖在线娱乐方法简单粗暴:直接用字符串正则匹配或其变种(比如字符串的指纹、字符串的Levenshtein 编辑距离等)的方式检测,这种方式的缺点也很明显:抄袭者不会傻到直接ctrl+c、ctrl+v,或多 阅读全文
posted @ 2024-05-25 00:06 第七子007 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 1、作为安全从业者,以前搞逆向、挖漏洞、干渗透全靠人工推进,缺点很明显: 无法自动化,甚至也无法半自动化,效率低(后续可以开发agent解决) 知识面有限,存在很多知识盲点,导致遇到部分问题无法解决(可以通过增加知识库,然后rag检索或微调大模型解决) 尝试了一些在线的大模型(chatGPT4、co 阅读全文
posted @ 2024-05-20 19:46 第七子007 阅读(28) 评论(0) 推荐(0) 编辑