68893236+KINDNICK@users.noreply.github.com 1179d6832e ADD : 클로드 스킬 추가
2026-01-30 21:59:38 +09:00

360 lines
8.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
description: 从内容中提取关键实体和概念,构建知识图谱,生成 Schema.org 标记以增强 AI 理解。
argument-hint: <file-path-or-url> [--format <Article|Organization|FAQPage|Concept>]
options:
- format: Schema.org 类型默认auto 自动检测)
examples:
- /geo-entity-extraction blog/post.md
- /geo-entity-extraction post.md --format Article
- /geo-entity-extraction https://yoursite.com --format FAQPage
---
## 功能说明
### 核心功能
**实体提取与知识图谱构建**从内容中自动识别关键实体(概念、人物、组织、地点、事件),分析实体间关系,生成 Mermaid 格式的知识图谱,并提供完整的 Schema.org JSON-LD 标记。
### 使用场景
- 为博客文章生成结构化数据
- 构建主题权威性和内容集群
- 优化 AI 对内容的理解
- 创建可视化的知识图谱
## 执行流程
### 步骤 1: 内容读取和预处理
- 读取文件内容
- 去除 HTML 标签(如果是网页)
- 分段和分句
### 步骤 2: 实体识别
使用 NLP 规则识别:
```bash
# 识别专有名词(大写开头)
grep -oE '\b[A-Z][a-z]+\b' content.md
# 识别技术术语
grep -oE '\b[A-Z]{2,}\b' content.md
# 识别数字和统计数据
grep -oE '\b\d+[%]?\b' content.md
# 识别定义语句
grep -E '(是|定义为|是指|refers to|means)' content.md
```
### 步骤 3: 实体分类
- **人物** (Person): 作者、专家、名人
- **组织** (Organization): 公司、机构
- **概念** (Concept): 专业术语、方法、技术
- **地点** (Place): 城市、国家、地区
- **事件** (Event): 会议、发布、更新
### 步骤 4: 关系提取
- **is-a** (继承): "SEO 是一种营销策略"
- **part-of** (组成): "关键词研究是 SEO 的一部分"
- **related-to** (相关): "SEO 与内容营销相关"
- **impacts** (影响): "技术 SEO 影响网站速度"
### 步骤 5: 知识图谱构建
生成 Mermaid 格式的知识图谱
### 步骤 6: Schema.org 生成
根据实体类型生成相应的 JSON-LD
## 输出示例
```markdown
# 🧠 实体提取与知识图谱
## 分析内容blog/post.md
**提取时间:** 2024-01-15
**识别实体:** 15 个
**关系类型:** 6 种
---
## 📊 核心实体识别
### 主要概念Concept
#### 1. SEO ⭐
- **类型:** 概念
- **定义:** 搜索引擎优化
- **出现频率:** 42 次
- **相关实体:**
- 包含 → 技术SEO、内容SEO、外链建设
- 相关 → 营销策略、数字营销
- 影响 → 网站排名、有机流量
#### 2. 关键词研究
- **类型:** 概念
- **定义:** 识别和选择目标关键词的过程
- **出现频率:** 18 次
- **相关实体:**
- 属于 → SEO
- 使用 → 关键词工具、Google Keyword Planner
- 目标 → 搜索意图、长尾关键词
#### 3. Backlink
- **类型:** 概念
- **同义词:** 外链、入站链接
- **出现频率:** 15 次
- **相关实体:**
- 影响 → 域名权威度、搜索排名
- 来源 → 客座博客、社交媒体、目录
### 组织Organization
#### 1. SEMrush
- **类型:** 组织/公司
- **关系:**
- 提供 → SEO 工具
- 相关 → Ahrefs、Moz
---
## 🔗 知识图谱
```mermaid
graph TD
A[SEO] --> B[技术SEO]
A --> C[内容SEO]
A --> D[外链建设]
B --> E[网站速度]
B --> F[移动友好]
B --> G[SSL证书]
C --> H[关键词研究]
C --> I[内容质量]
C --> J[用户体验]
D --> K[客座博客]
D --> L[社交媒体]
D --> M[数字PR]
H --> N[Google Keyword Planner]
H --> O[SEMrush]
H --> P[Ahrefs]
style A fill:#f9f,stroke:#333,stroke-width:4px
style B fill:#bbf,stroke:#333,stroke-width:2px
style C fill:#bbf,stroke:#333,stroke-width:2px
style D fill:#bbf,stroke:#333,stroke-width:2px
```
### 实体关系说明
- **粗线边框** = 核心概念
- **细线边框** = 子概念
- **箭头** = 关系方向
---
## 📝 Schema.org 标记生成
### 1. Article Schema推荐
```json
{
"@context": "https://schema.org",
"@type": "Article",
"headline": "SEO 完全指南:从入门到精通",
"description": "深入理解搜索引擎优化的核心概念和实践方法",
"author": {
"@type": "Person",
"name": "张三",
"jobTitle": "高级 SEO 专家",
"credential": "Google 认证 SEO 专家"
},
"publisher": {
"@type": "Organization",
"name": "Your Company",
"logo": {
"@type": "ImageObject",
"url": "https://yoursite.com/logo.png"
}
},
"datePublished": "2024-01-15",
"dateModified": "2024-01-15",
"mainEntityOfPage": {
"@type": "WebPage",
"@id": "https://yoursite.com/seo-guide"
},
"about": [
{
"@type": "Thing",
"name": "SEO",
"description": "搜索引擎优化"
},
{
"@type": "Thing",
"name": "技术SEO",
"description": "网站技术优化"
},
{
"@type": "Thing",
"name": "内容SEO",
"description": "内容优化策略"
}
],
"keywords": "SEO, 搜索引擎优化, 技术SEO, 内容SEO, 外链建设"
}
```
### 2. FAQPage Schema
```json
{
"@context": "https://schema.org",
"@type": "FAQPage",
"mainEntity": [
{
"@type": "Question",
"name": "什么是 SEO",
"acceptedAnswer": {
"@type": "Answer",
"text": "SEOSearch Engine Optimization是..."
}
},
{
"@type": "Question",
"name": "SEO 需要多长时间见效?",
"acceptedAnswer": {
"@type": "Answer",
"text": "通常 3-6 个月可见明显效果..."
}
}
]
}
```
### 3. BreadcrumbList Schema
```json
{
"@context": "https://schema.org",
"@type": "BreadcrumbList",
"itemListElement": [
{
"@type": "ListItem",
"position": 1,
"name": "首页",
"item": "https://yoursite.com"
},
{
"@type": "ListItem",
"position": 2,
"name": "博客",
"item": "https://yoursite.com/blog"
},
{
"@type": "ListItem",
"position": 3,
"name": "SEO 指南",
"item": "https://yoursite.com/seo-guide"
}
]
}
```
---
## 💡 实体优化建议
### 1. 核心实体强化
**问题:** "SEO" 概念定义不够明确
**建议:**
```markdown
## 什么是 SEO
**SEOSearch Engine Optimization** 是通过优化网站的内容、结构和技术提高其在搜索引擎结果页面SERP中排名的过程。
**核心目标:**
- 提高有机搜索流量
- 改善用户体验
- 增强网站权威性
**三大支柱:**
1. **技术 SEO** - 优化网站技术基础
2. **内容 SEO** - 创建高质量内容
3. **外链建设** - 建立权威性链接
```
### 2. 实体关系清晰化
**建议:** 使用明确的关联词
```markdown
**好的示例:**
- SEO **包含** 技术SEO、内容SEO、外链建设
- 关键词研究 **属于** SEO 的一部分
- 外链建设 **影响** 域名权威度
**不好的示例:**
- SEO 和技术SEO
- 关键词研究、SEO
- 外链建设影响排名
```
### 3. Schema.org 标记完整化
**建议:** 添加所有必需字段
```json
{
"@context": "https://schema.org",
"@type": "Article",
"headline": "必须包含",
"author": "必须包含",
"datePublished": "必须包含",
"publisher": "必须包含",
"about": "推荐包含(帮助 AI 理解主题)",
"keywords": "推荐包含(关键词关联)"
}
```
---
## 📋 实施清单
### 立即添加到页面
- [ ] 复制生成的 Schema.org JSON-LD 到页面 `<head>`
- [ ] 验证 Schema.org 标记https://validator.schema.org/
- [ ] 优化核心实体的定义
### 本周完成
- [ ] 完善所有相关实体的描述
- [ ] 建立内部链接网络
- [ ] 更新知识图谱
### 持续优化
- [ ] 监控新的实体出现
- [ ] 定期更新关系
- [ ] 测试 AI 理解效果
---
**数据文件:** `.claude-flow/cache/reports/geo/entities-20240115.json`
**Schema 验证:** https://validator.schema.org/
```
## 使用示例
```bash
# 自动检测 Schema 类型
/geo-entity-extraction post.md
# 指定 Article 类型
/geo-entity-extraction post.md --format Article
# 生成 FAQPage Schema
/geo-entity-extraction faq.md --format FAQPage
# 提取网页实体
/geo-entity-extraction https://example.com
```
## 相关命令
- `/geo-content-audit` - 完整 GEO 审计
- `/structured-data` - 生成其他 Schema 类型
- `/seo-audit` - 传统 SEO 审计