検索結果

キーワード: ‘ファイル’

関連本を読んで強く感じたんだけどさ、正規表現に正規の物なんてないね。 でも、こう書いたらこう動いて欲しいってのの標準みたいなのはあるな。 で、今使ってるTRegExprは、検索に関してはそういう標準は十分満たしてる感じ。 置換は¥1~¥9で$1~$9と同じ動作をするように変更すれば十分って感じ。 十分どころか、真魚のくせにっていうくらいたいそうなことが出来る。 今できない機能に今後対応するかどうかについては、 面倒くさいからやりたくない…続きを読む

最初は、ヘルプに遅いと書いてあるから速くできるんじゃないかとか、 まだ対応してない物を自前で対応できないかとか、 そういうつもりで正規表現ライブラリの中身を検証していたはずだったが、 途中からはアプリが落ちるか落ちないかの話題に変ってしまったな。 で、一応解決したよ。現在は、8000どころか80000文字でも落ちないようになった。 もちろん、32bitを超える数字のケアはしてないので、そこであふれるだろうが。 32bit以上のケアしない…続きを読む

やる気がないときは一切やらないのに、いったんハマると抜けられないな。 折り返しやEUC関連の修正と変更は、手作業でばかりやっていたわけではない。 数万の文字についてそれが何語だとか記号だとか、変換先がどこだとか、 人間様が手作業で分類してたら気が遠くなるわけで、 既に他人によって分類されたデータを利用しやすいように編集するという作業は、 それ専用にプログラムを書いてやらせたりとかしているわけだ。 プログラムをプログラムに書かせるみたいな…続きを読む

メモ帳での画面表示色って、Windows全体の色設定にしたがうようになっている。 黒地に白で書くようなテーマにすると、メモ帳でもそれに従うようになる。 範囲選択された文字の色と背景も同様だ。 真魚の場合は、Windowsの設定がどうであっても、真魚の設定で動くようにしている。 でも、色設定の項目に範囲選択された文字色と背景色の設定がなく、 範囲選択部分はネガポジ反転で対応している。 白地に黒の文字なら範囲選択で黒地に白になるっていう感じ…続きを読む

JIS/EUC変換読み書き部分を作り直し、今まで対応してなかった文字に対応したので、 文字コード自動判定部分も、新たに対応した領域を使いたい。 jconvert.pasは結構古いものなので、 JIS、EUCを検出することは出来ても、UTF-8やUTF-7を自動判定することは出来ず、 真魚では、まずjconvert.pasの判定もして、 しかも自前で書いたUTF-7とUTF-8の判定をもするという形をとっているわけだが、 全部まとめて1p…続きを読む

EUCへの対応については、補助漢字領域の拡張を目的に進めてきた。 すなわち、旧来のSJIS変換を行うとEUCにしかない文字が失われてしまうので、 SJISを介さずにEUC<->ユニコード変換を行うように仕様変更だ。 それはもうできあがったからそれで良い。 次にJISへの対応をどうするかという話だ。 JISは多くの拡張がなされているため、全てに対応すれば中韓国語も扱えるはずだ。 だが、中韓国語拡張したJIS文字コードはどこで利用されるのか…続きを読む

ようやく満足のいくEUC対応ができあがったようだ。 が、乗りかかった船なのでもうちょっと調べている。 http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kanjibukuro/japan.html これのEUC-JPとShift_JISのところに、ちょっと納得いくことが書いてあった。 >いずれを使うかは、使う人の自由にまかされます。 なるほどな。 DelphiアプリでのEUC変換は、jconvert.…続きを読む

JISX0212の補助漢字領域の資料が正しいかどうかはわからないが、 JISX0208の第一水準、第二水準漢字領域については、 資料には不備が多すぎて使い物にならなかったと言うことで、 CP50220を使って、OSにJISX0208領域を実際に変換させてテーブルを作成させた。 そしたら、CP20932を使ったときと同様、それと同じ文字で問題があった。 これも、SJIS経由での変換とは多少違った物を作ってしまった。 いや、多少かどうかは知…続きを読む

二つの方法がダメになった。 ○SJISを経由すると補助漢字が失われる。 ○CP20932でもうまくいかない。 で、最後の方法として、 ○アプリが変換テーブルをもつ。 コレをやるにあたり、 http://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/ にあるテキストファイルを使用した。 矩形選択と正規表現置換で、完璧にDelphiコードに変換できた。 そして実際に正しい変換が出…続きを読む

まとめると、EUCをWindowsで扱う方法は三つ。 ○SJISに変換する。 SJISにはない補助漢字領域の文字は全て破棄する事になる。 ○EUC<->UTF16変換テーブルをアプリ内で持つ。 一番やりたいのはこれだが作業がつらい。 ○CP20932を使ってWindowsにやらせる。 本来のEUCでは補助漢字領域を3バイトで表すが、CP20932は2バイトで表す。 この2バイトと3バイトの相互変換が実に簡単な事がわかった。 CP2093…続きを読む

日本語文字コードって、WindowsではSJIS、UnixではEUCということだが、 インターネットが普及したおかげで、EUCをWindowsで扱う機会も増えてきたということだが、 EUCにはあってSJISにはない文字っていうのもあるってことを、萌ディタの開発日記で知った。 旧来のSJISのテキストエディタでは、SJISにない文字なんだから編集出来なくて当たり前で、 ”EUC対応”って書いていても特定の文字は変換できなくて切り捨ててきた…続きを読む

萌ディタの日記を読んだおかげで、コレまで知らなかったいろんな事が見えてきた。 作者さん相当賢いんだなぁ。復帰するのかしらねぇ。 で、真魚にも生かしたいのだが、タップリと書いたせいで自分で読み返すのが面倒だ。 気になる部分を自分のためにまとめてもう一回書く。 >EUC対応 真魚は、Delphiの世界ではスタンダードなjconvert.pasを高速化して使っている。 これって、EUCをSJISに変換するユニットだから、SJISに変換できない…続きを読む

1986 letters | 814 views | コメントする

テキストファイル内で改行を表す記号が統一されなくて困ると言う話。 真魚は、Windows、Windows以外、古いMacという、三つの表記を使っている。 まず、Unix系のパソコンでは、改行をLFという記号で表している。 インターネットとかが普及したせいで、LFの需要も高まってしまった。 次に、古いMacはCRという記号で改行を表していたのだが、 そのインターネット需要のためか、最近はLFに変更されているらしい。 コレが、Windows…続きを読む

つづき。 難しい話が多くなってきて、読んでもわからないことも多い。 http://www.geocities.co.jp/SiliconValley-Oakland/3617/progress_2004Q3.html >ぎょえ(仮)がちょっと楽しみだったりします もう.NETのぎょえは継続する気がなくて真魚だがな。 >ショートカットファイルをドロップしたとき テキストを含む、ドキュメントファイルのショートカットを作ったことがないので気が…続きを読む

つづき。 現在、萌ディタも起動していじりながら、コレは真魚で書いてる。 ここまでで萌ディタの「がっかり」すなわち不正終了が二回出た。 http://www.geocities.co.jp/SiliconValley-Oakland/3617/progress_2004Q2.html >ルーラの存在は微妙 あたしもEmEditor式は相当違和感がある。真魚はTEditorのパクリ式。 何文字目で折り返してるか見たり、実際に折り返したりする…続きを読む