注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Oh! I see you!

Hi! ppmm~~

 
 
 

日志

 
 

[Cterm] KBS星运版自动发帖脚本(新浪台湾站)  

2011-09-13 14:19:11|  分类: Cterm |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

本文链接:http://oicu.cc.blog.163.com/blog/static/12303947120118132145281/

 

又是一个雨天……(偶咋个感觉一写脚本这些东西都是在雨天?)

中秋假第3天外出计划泡汤,不过之前耍了2天也够累的了,正好睡个懒觉,下

午闲着,于是改写KBS星运版发帖的脚本。

 

新浪简体中文网的编辑太懒了,星运经常都没及时更新,即使更新也只有部分

星座的,无奈啊,决定改从新浪台湾繁体站取星运数据。

 

台湾站的和中文站的网页结构差别太大了,sed处理文本几乎是重写,这个只是

改写,还算简单。关键是wget下来的网页发现编码是UTF-8的,sed不认!于是

乎,先用iconv把下载的网页转成GBK编码,本想一步到位转GB2312的,遇到

繁体字iconv居然也停止工作了。

 

wget、iconv、sed处理完之后,得到所需的文本,可以直接发帖用了,不过文字

还是繁体的,看着别扭。命令行简繁转换工具ConvertZ和TCSCConv之间,选择

了后者,毕竟是从Office2007里rip出来的,整词转换比较好,不过按词繁转简还

是有点问题,比如“囉”转换后应该是“啰”,但是却变成问号了。

 

之前从简体中文网取星运数据的脚本还是可以继续使用,只是更新速度比新浪台

湾站慢。

  评论这张
 
阅读(1353)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017