AI算法赛个人经验总结(下)
比赛官网 :https://competition.ai4s.com.cn/race/10/description 赛题解读 :https://ailc.datawhale.cn/hall/group/91/task/162 RNA-蛋白结构预测算法竞赛经验总结一、总体竞赛流程这类结构生物学竞赛与传统机器学习竞赛最大的区别在于: 传统竞赛关注的是: 数据 → 特征 → 模型 → 分数 而结构预测竞赛更接近: 序列 → 结构生成 → 候选结构筛选 → 提交结构 → 分数 因此整体流程建议按照以下顺序推进: 第一阶段:Baseline复现目标: 跑通官方代码 生成完整预测结果 获得第一版提交成绩 重点检查: 是否所有样本均成功预测 是否存在OOM(显存爆炸) 是否成功生成全部cif文件 是否成功生成confidence文件 不要急于优化。 先确保: 所有题目都有答案。 第二阶段:结果筛选优化目标: 从模型已经生成的多个候选结构中挑出最优答案。 流程: 生成多个候选结构 → 读取置信度指标 → 筛选最优结构 → 提交 这类优化成本极低。 往往是最容易获得收益的方向。 ...
AI算法赛个人经验总结(上)
比赛官网 :https://competition.ai4s.com.cn/ 能源电力赛题解读 :https://ailc.datawhale.cn/hall/group/76/task/164 针对比赛的经验AI算法赛的核心不是一次性做出最优方案,而是建立一套“实验—评估—提交—反馈—优化”的闭环迭代流程。 一、理解比赛评价体系在开始优化前,首先明确比赛的目标指标。 1. 官方评分指标需要明确: 排行榜依据什么评分 分数越大越好还是越小越好 线上评分与线下评分是否一致 例如(电力方向): 任务类型 常见指标 回归预测 RMSE、MAE 分类任务 Accuracy、F1 排序推荐 NDCG、MAP 策略优化 总收益、收益率 2. 建立本地评估体系任何改动都必须先经过本地验证。 常见本地指标: 验证集 RMSE 验证集 MAE F1 Score AUC 平均收益 原则: 误差类指标越小越好 准确率类指标越大越好 收益类指标越大越好 例如: 原模型: 12RMSE = 0.648平均收益 = 11618 改进后: 12RMSE = ...
OSS学习记录(Agent项目中)
下面是整理后的学习笔记(已去掉第十和第十三部分,并将关键数据结构改为表格形式)。 阿里云 OSS 与 Agent 联动学习笔记一、OSS 是什么Alibaba Cloud OSS(Object Storage Service)是一个云端对象存储服务。 它用于存放图片、视频、文档、日志、模型输出等文件。 在系统架构中: 数据库:存业务数据 OSS:存文件本体 Agent:处理逻辑 + 调用 OSS 二、OSS 核心概念 概念 含义 示例 Bucket 存储空间(类似顶级目录) product-images Object 实际文件 main.jpg Object Key 文件路径 products/10001/main.jpg Endpoint 访问域名 oss-cn-hangzhou.aliyuncs.com AccessKey 访问凭证 AK / SK 补充说明: Bucket 必须全局唯一 Object Key 本质是字符串路径(没有真实文件夹) Endpoint 必须与地域一致 三、Agent 为什么需...
快速上手一个项目
新项目快速上手指南 一、先跑起来(不要一上来就读代码)目标确认系统是“活的”,避免在错误环境中分析代码。 操作步骤 阅读 README.md 或启动文档 安装依赖(如 npm install / mvn install / bun install) 启动服务(如 npm run dev / java -jar / docker-compose up) 访问接口或前端页面 你必须确认 服务是否成功启动(无致命报错) 服务端口(如 8080 / 3000) 是否有异常日志 数据库是否连接成功(连接池 / ORM 日志) 常见问题 端口被占用 环境变量未配置(如 .env) 数据库未启动 / 账号密码错误 依赖未安装完整 👉 结论:系统跑不起来,一切分析没有意义 二、搞清项目结构(10分钟扫一遍)目标快速定位代码职责分层,避免“迷路式阅读代码”。 核心目录说明12345controller / api 👉 接口入口(处理请求)service 👉 核心业务逻辑reposi...
部署脚本编写相关
部署验证流程跑通验证的 6 个步骤12345678910111. 本地执行部署脚本 ↓2. 代码上传到生产服务器 (47.242.65.47) ↓3. Docker 容器启动 ↓4. Nginx 配置生效 ↓5. 访问 http://www.chronode.net/ 能正常打开 ↓6. 确认功能 OK 核心思想:别纸上谈兵,先实际部署一次看看 执行步骤Step 1:本地准备12345678910# 1. clone 项目git clone https://github.com/xiaoxijin/gf_v3cd gf_v3# 2. 安装依赖bun install# 3. 检查部署脚本ls -la deploy.shcat deploy.sh # 确认配置(服务器 IP、端口等) Step 2:执行部署123# 运行部署脚本(需要设置密码环境变量)export SERVER_PASSWORD="你的服务器密码"bash deploy.sh Step 3:验证结果12345678910111213# 1. SSH 连上服务器ssh r...
服务器与部署相关
可以,而且这套东西你一旦理顺,后面做项目就不会一直“哪里都懂一点,但一上手就慌”。 你现在遇到的,本质上是 开发环境、测试环境、生产环境 三套东西混在一起了。先给你一句最核心的话: 写代码可以在服务器上,但“调试前端、联调接口、连数据库、发版部署”通常都要区分清楚你现在到底在操作哪一个环境。 我用最接地气的方式带你搭框架。 一、你现在到底在做什么你现在说的场景,一般是这样的: 代码放在服务器上你通过 VSCode Remote SSH、终端、跳板机之类连到服务器开发。 前端想在本机浏览器看效果因为浏览器在你电脑上,不在远程服务器上,所以你需要: 要么把前端项目在本机跑起来 要么把服务器上的前端端口转发到本机 后端和数据库可能在不同地方常见组合有: 前端在本机,后端在测试服务器,数据库也在测试服务器 前后端都在服务器,数据库单独一台 前端本机,后端本机,数据库 Docker / 本机 / 远程库 部署到测试环境不是“写完代码自动就有了”,而是把你改的代码发到测试环境机器上,再启动服务。 上线把测试通过的版本发布到生产环境。 二、你先建立这 4 个...
并发编程与数据隔离
并发编程与数据隔离核心问题并发场景下的典型数据问题: 问题 描述 例子 竞态条件 多个线程同时读写同一数据,结果依赖执行顺序 两个请求同时修改用户余额 脏读 读到未提交的事务数据 A 修改未提交,B 读到了 丢失更新 后提交的覆盖先提交的 两人同时编辑同一文档 幻读 同一查询在不同时间返回不同行数 统计用户数时有人新注册 数据库层面解决方案事务隔离级别: 隔离级别 脏读 丢失更新 幻读 默认数据库 Read Uncommitted ❌ ❌ ❌ - Read Committed ✅ ❌ ❌ Oracle, PostgreSQL Repeatable Read ✅ ✅ ❌ MySQL Serializable ✅ ✅ ✅ - 乐观锁 vs 悲观锁: 12345678-- 悲观锁(先锁再改)SELECT * FROM users WHERE id = 1 FOR UPDATE;UPDATE users SET balance = balance - 100 WHERE id = 1;-- 乐观锁(先改再检查版本号)UPDATE u...
LoRA+QLoRA
LoRA是什么?LoRA(Low-Rank Adaptation)是一种用于微调大模型(LLM / Diffusion / Transformer)的技术。 冻结原始模型参数,只训练一个低秩矩阵来表示权重更新。 这样可以让权重变化 ΔW 不需要完整矩阵,在极少训练参数的情况下,让模型学到新任务能力。 为什么需要?lora的设计亮点参数少,速度快,模块化 模块化的本质: LoRA 将“任务能力”封装成一个 独立的参数模块,可以在 不改变原模型 的情况下加载或卸载。 在代码层面 LoRA 是一个 外挂模块: 1234567Base Model │ ├── W (冻结权重) │ └── LoRA Module ├── A └── B 训练时: 1只训练 LoRA Module 推理时: 1Base Model + LoRA 可以随时加载/卸载能力例如一个基础模型: 1LLaMA 不同能力可以变成不同 LoRA: 123456base_model │ ├── finan...
Scaling Law
Scaling LawScaling Laws for Neural Language Models Chain of Thought (CoT) 是让模型把逻辑推导过程写出来 Instruction Tuning 是教模型听懂并执行人类指令 Scratchpad 就是给模型一块“草稿本”,让它在最终输出答案前先在大脑(上下文)里打草稿。 CoT (思维链):是行为方式,像是在说“请步步为营地思考”。 Instruction Tuning (指令微调):是训练手段,通过海量“指令-回复”对让模型变乖、变聪明。 Scratchpad (草稿纸):是技术实现,通过在输出中强制包含中间步骤,利用已生成的 Token 来辅助生成后续更复杂的 Token(即“以空间换逻辑”)。 Scratchpad 定义Scaling Law(规模法则) 是 AI 界的“大力出奇迹”指南。它告诉我们:如果你投入更多的算力、更多的数据、更大的模型参数,AI 的性能就会预测性地变得更强。 它揭示了模型性能并不是随机增长的,而是遵循严格的数学幂律关系。 为什么要学这个?理解 Scaling Law 能...
RUST笔记一(基础与变量)
RUST-基础与变量第一章:基础入门与环境配置🔧 核心概念:CargoCargo 是 Rust 的构建系统和包管理器(类似 npm/pip)。 常用命令: cargo new project_name:创建新项目 cargo build:编译项目 cargo run:编译并运行(日常开发最常用) cargo check:快速检查语法错误(不生成二进制文件,速度快) 📁 项目结构Plaintext 1234567hello_cargo/├── Cargo.toml # 项目配置文件(依赖、元数据)├── src/│ └── main.rs # 源代码入口└── target/ # 构建输出目录(自动生成) └── debug/ └── hello_cargo # 编译后的可执行文件 💻 VS Code 远程开发 (Remote-SSH) 🔥推荐方案:直接在云服务器上开发。 扩展:安装 Remote - SSH。 连接:Ctrl+Shift+P -> Remote-SSH: Connect...







